Statistique - Probabilités - Optimisation et Contrôle

Régularisation des modèles linéaires généralisés mixtes par construction de composantes supervisées

by Mr Jocelyn Chauvet (IMB)

Europe/Paris
Description

Une forte redondance des variables explicatives cause de gros problèmes d'identifiabilité et d'instabilité des coefficients dans les modèles de régression. Même lorsque l'estimation est possible, l'interprétation des résultats est donc extrêmement délicate. Il est alors indispensable de combiner à la vraisemblance de ces modèles un critère supplémentaire qui régularise l'estimateur. Dans le sillage de la régression PLS qu’elle englobe et généralise, la stratégie de régularisation que nous considérons est fondée sur l'extraction de composantes dites « supervisées ». Contraintes à l'orthogonalité entre elles, ces composantes doivent non seulement capturer l'information structurelle des variables explicatives, mais également prédire au mieux les variables réponses, qui peuvent être de types divers (continues ou discrètes, quantitatives, ordinales ou nominales). 
    Sur un exemple élémentaire de régression, nous commençons par mettre en défaut le pouvoir interprétatif des composantes principales et PLS. Cela justifie la nécessité de construire des composantes de manière plus flexible dans la but de rétablir ce pouvoir interprétatif. Les composantes supervisées sont précisément conçues dans cette optique, tout en maintenant de bonnes qualités prédictives.
    Par ailleurs, la régression sur composantes supervisées, développée initialement pour les GLMs multivariés, n'a jusqu'alors concerné que des modèles à observations indépendantes. Or, dans de nombreuses situations, les observations sont groupées. Nous proposons donc une extension de la méthode aux GLMMs multivariés, pour lesquels les corrélations intra-groupes sont modélisées au moyen d'effets aléatoires. À chaque étape de l'algorithme de Schall permettant l'estimation du GLMM, nous procédons à la régularisation du modèle par l'extraction de composantes maximisant un compromis entre qualité d'ajustement et pertinence structurelle. Comparé à la régularisation par pénalisation de type ridge ou LASSO, nous montrons sur données simulées que notre méthode non seulement permet de révéler les dimensions explicatives les plus importantes pour l'ensemble des réponses, mais fournit souvent de meilleures estimations. La méthode est aussi évaluée sur des données réelles d’écologie forestière.