Inférence statistique pour la régression PLS et ses variantes
by
Salle Fokko du Cloux (Bâtiment Braconnier)
Le jury sera composé de :
- M. Clément MARTEAU, Université Claude Bernard Lyon 1, Directeur de thèse,
- Mme Irène GANNAZ, Université Grenoble Alpes, Directrice de thèse,
- Mme Liliana FORZANI, Université Nationale du Littoral - Santa Fe (Argentine), Rapportrice,
- M. Vincent RIVOIRARD, Université Paris Dauphine, Rapporteur,
- Mme Sophie LAMBERT-LACROIX, Université Grenoble Alpes, Examinatrice,
- Mme Sophie DABO-NIANG, Université de Lille, Examinatrice,
- Mme Véronique MAUME-DESCHAMPS, Université Claude Bernard Lyon 1, Examinatrice,
- M. Mohamed HEBIRI, Université Gustave Eiffel, Examinateur.
Résumé :
Cette thèse est consacrée aux propriétés statistiques de l’estimateur de régression des moindres carrés partiels (PLS). La régression PLS est une technique de réduction de la dimension connue pour traiter les cas de haute dimension et de multicolinéarité. Cette méthode projette les covariables sur un sous-espace bien choisi, en considérant les corrélations successives avec la variable à expliquer, dans le but d’améliorer la qualité prédictive. Nous décrivons les différentes formes d’algorithmes PLS, en détaillant leurs propriétés mathématiques et en soulignant le lien avec la méthode du gradient conjugué. Par ailleurs, les propriétés algébriques du sous-espace calculé sont analysées et approfondies dans notre contexte. Certains liens avec la structure des valeurs propres de la matrice de covariance sont également établis. Nous commençons par fournir une borne supérieure non asymptotique pour l’estimateur PLS sur la perte quadratique dans le cas d’une seule composante. Nous étendons ces résultats dans un contexte parcimonieux pour la sparse PLS (sPLS) où les bornes obtenues sont similaires à celles obtenues pour l’algorithme Lasso. Nous généralisons ensuite la borne donnée au cas de l’estimateur PLS avec K composantes. La borne est obtenue grâce à une hypothèse sur la norme des composantes PLS de Krylov. Nous assouplissons cette hypothèse en introduisant une étape de régularisation Ridge dans l’estimateur PLS afin d’obtenir des bornes similaires. Enfin, nous nous concentrons sur l’estimation de projections aléatoires. Ce travail découle de l’intérêt porté à la régression PLS, où le sous-espace calculé est aléatoire et représente une estimation d’une version théorique. Nous fournissons une borne supérieure non asymptotique sur la norme d’opérateur de la différence entre l’opérateur de projection et son estimation.