Rencontres Statistiques Lyonnaises

Défis posés par les données manquantes non aléatoires

par Aude Sportisse (Université Côte d'Azur)

Europe/Paris
Description

L'une des ironies de la collecte accrue de données est que les données manquantes sont inévitables : plus il y a de données, plus il y a de données manquantes. L'objectif de cette présentation est de donner un aperçu des données manquantes non aléatoires (MNAR), lorsque l'indisponibilité des données dépend des valeurs prises par les données. Cela implique que la population observée n'est pas représentative de la population générale. Ces données manquantes sont largement rencontrées dans les jeux de données réelles, mais elles introduisent des biais significatifs dans les échantillons, que la plupart des méthodes existantes ignorent. Nous discuterons des principales difficultés posées par les données MNAR, telles que l'identifiabilité des paramètres, et nous verrons quelques exemples pour illustrer comment les traiter dans des contextes spécifiques tels que l'apprentissage semi-supervisé, le partitionnement de données et les modèles à faible rang.