Séminaires

Classifieur Minimax Discret pour l’aide au Diagnostic Médical

par M. Cyprien Gilet (Heudiasyc)

Europe/Paris
LMAC

LMAC

Description
L'apprentissage statistique devient de plus en plus prometteur pour l'aide au diagnostic médical dans le domaine de la médecine de précision. À partir du profil clinique et biologique de chaque patient, ces méthodes peuvent par exemple aider les experts du domaine d'application à diagnostiquer le développement d'une maladie ou à prédire la réponse d'un traitement spécifique. Pour ce faire, à partir d'une cohorte de patients dont les classes d'intérêt sont déjà connues, ces méthodes d'apprentissage supervisé sont usuellement calibrées en cherchant à minimiser le risque d'erreur global de prédiction sur cette base d'apprentissage. Intuitivement, ces méthodes cartographient l'espace formé par les variables descriptives de sorte que les régions établies soient associées à une classe unique, et de sorte que le risque d'erreur de classification global soit minimisé. Ensuite, le classifieur résultant diagnostiquera un nouveau patient en lui attribuant la classe associée à la région dans laquelle ce patient se situe.
 
De nos jours, les méthodes de classification supervisée deviennent de plus en plus performantes. Cependant, la plupart de ces méthodes souffrent lorsque les proportions par classes sont déséquilibrées et que certaines de ces proportions évoluent au court du temps, ce qui se produit très souvent dans les applications médicales. Par exemple, pour de nombreuses maladies, les classes d'intérêt qui correspondent en général aux patients qui développent une maladie sont rares et donc très difficiles à diagnostiquer. De plus, la plupart de ces méthodes sont construites sur l'hypothèse que les futurs patients suivront la même distribution que ceux observés dans la base d'apprentissage, ce qui n'est cependant pas le cas dans le domaine médical. En effet, la proportion de patients qui développent une maladie peut évoluer au cours du temps, sans que l'on sache quand, ni comment, ni pourquoi. Et ceci peut ainsi augmenter le risque d'erreur de diagnostics pour de futurs patients. Ces difficultés de proportions par classe déséquilibrées et incertaines sont de plus en plus mises en avant dans le domaine de l'apprentissage statistique pour la santé, et le fait de considérer des classifieurs robustes face à ces difficultés devient nécessaire.
 
Nos recherches en collaboration proche avec des biologistes et médecins de l'Université Côte d'Azur nous ont permis de développer une nouvelle méthode mathématique d'apprentissage supervisé : un classifieur minimax discret. Notre approche peut prendre en compte le savoir ou l'intérêt des experts du domaine d'application, et est également capable de faire face à d'autres difficultés qui apparaissent souvent dans le domaine médical : la présence de corrélations ou d'autres liens entre les variables descriptives, et la présence à la fois de variables descriptives discrètes et continues. Dans le but de travailler plus facilement avec ce type de variables descriptives hétérogènes, nous choisissons de discrétiser l'ensemble de ces variables, ce qui nous permet de calculer analytiquement le risque d'erreur de Bayes empirique sur le simplexe. Notre classifieur minimax est ensuite calibré à partir d'un algorithme de sous-gradient projeté qui cherche les probabilités à priori maximisant ce risque de Bayes empirique. La convergence de cet algorithme est démontrée. Par construction, notre classifieur minimax tend à égaliser les risques d'erreurs par classe et devient donc plus robuste face à d'éventuel évolutions des proportions au cours du temps.
 
Travail en collaboration avec :
  • Lionel Fillatre (Laboratoire I3S, CNRS, Université Côte d'Azur)
  • Marie Guyomard (Laboratoire SESSTIM, Aix Marseille Université)
  • Nicolas Glaichenhaus (IPMC, CNRS, Université Côte d'Azur)
  • Sebastien Destercke (Laboratoire Heudiasyc, CNRS, UTC)