Rencontres Statistiques Lyonnaises

Modèles de mélanges et clustering : application aux données de grande dimension

par Nicolas Jouvin (Post-doc à l’École Centrale Lyon - ICJ)

Europe/Paris
112 (Braconnier)

112

Braconnier

Description

La classification non-supervisée, ou clustering, consiste à regrouper des observations en K classes, ou clusters, et donne lieu à de nombreuses applications. L'approche statistique de ce problème consiste à supposer les observations issues d'un mélange probabiliste de K lois paramétriques dont les paramètres et proportions sont à estimer. Face à des données multivariées de différentes natures et de grande dimension, les défis liés à la sur-paramétrisation des modèles standards nécessite une attention particulière. Dans cet exposé, je présenterais deux modèles de mélanges respectivement pour les données continues et de comptage (discrètes) en grande dimension. Pour chacun de ces modèles, je détaillerais un algorithme de clustering et proposerais une illustration sur données réelles pour le débruitage d'image et le clustering de rapports médicaux.

Pour références, ce travail s'appuie sur deux articles publiés avec mes anciens directeurs de thèse, Pierre Latouche et Charles Bouveyron :

1. A Bayesian Fisher-EM algorithm for discriminative Gaussian subspace clustering  https://hal.archives-ouvertes.fr/hal-03047930
2.  Greedy clustering of count data through a mixture of multinomial PCA https://hal.archives-ouvertes.fr/hal-02278224 (en collaboration avec Guillaume Bataillon & Alain Livartowski, médecins à l'Institut Curie)