Rencontres Statistiques Lyonnaises

Classification par ensembles pour les problèmes multi-classes

par Dr Mohamed Hebiri (Université Gustave Eiffel)

Europe/Paris
séminaire 2 (sous-sol du bâtiment Braconnier (la doua))

séminaire 2

sous-sol du bâtiment Braconnier (la doua)

Description

La classification multi-classes est un cadre d'apprentissage statistique largement étudié de part son grand champs d'applications. Les données modernes de type multi-classes sont souvent très ambigües rendant inefficaces les approches de classification classiques prédisant par le biais d'un seul label. En autorisant plusieurs labels en sortie, la classification par ensembles (set-valued classification en anglais) offre une possibilité naturelle pour gérer l'ambigüité entre les classes.
Lors de cet exposé, je vais tout d'abord décrire différents cadres de classification par ensembles existants dans la littérature, mettant en avant leurs avantages et pointant leurs limites.
Par la suite, je me concentrerai sur le cadre particulier où le nombre moyen de labels en sortie est borné à l'avance. Je motiverai ce cadre sur des exemples concrets de reconnaissance d'images et de classification de variétés de plantes. J'introduirai alors une méthode d'estimation semi-supervisée adaptée à ce cadre d'étude et en étudierai les propriétés statistiques. Je mettrai en particulier l'accent sur l'intérêt d'avoir un nombre suffisamment grand d'observations non-labélisées lors de l'entraînement. Je montrerai que sur le plan théorique, l'approche semi-supervisée proposée est préférable d'un point de vue minimax à toute autre méthode qui n'utiliserait que des données labélisées pendant l'entraînement.