Rencontres Statistiques Lyonnaises

Calibrations de fonctions de pénalité pour la régression linéaire gaussienne en grande dimension

par Dr Perrine Lacroix (ENS de Lyon)

Europe/Paris
Fokko du Cloux (Bâtiment Braconnier, campus de la doua)

Fokko du Cloux

Bâtiment Braconnier, campus de la doua

Description

Dans un contexte de grande dimension, les approches statistiques classiques pour estimer le paramètre inconnu en régression linéaire Gaussienne ne sont plus adaptées et la parcimonie est une hypothèse de régularité souvent ajoutée au modèle : parmi les variables disponibles, seulement quelques unes sont actives. Une approche classique consiste à retrouver les variables actives via la minimisation des moindres carrés pénalisés. Pour obtenir une inégalité oracle sur le critère du risque prédictif, la théorie de la sélection de modèles développée par L. Birgé et P. Massart (2001) fournit des formes de pénalités connues à constantes multiplicatives près. Cependant, le contrôle de la prédiction n’est pas suffisant pour limiter la sélection de variables inactives. Au contraire, les méthodes contrôlant le critère du False Discovery Rate (FDR) sont en général conservatives et l’ensemble des variables sélectionnées ne contient pas toutes les variables actives. Contrôler les deux critères simultanément permettrait de sélectionner le plus de variables actives tout en limitant la sélection de variables non-actives. C’est pourquoi, nous proposons de rajouter un contrôle du FDR dans la procédure de sélection de modèles via la calibration de la constante inconnue de la pénalité. Dans un premier temps et sous un modèle simplifié, une étude théorique du FDR au sein de la sélection de modèle est effectuée. Celle-ci fournit des bornes sur le FDR non-asymptotiques et ne dépendant que des paramètres inconnus du modèle. Dans un second temps, après avoir proposé des estimateurs de ces paramètres inconnus, nous mettons en place un algorithme pour calibrer la constante en limitant le contrôle de la sélection de variables non actives (via le contrôle de la borne supérieure du FDR) tout en maintenant un bon contrôle du risque prédictif en sélection de modèles.

 

 

Mots-clés : sélection de modèles, grande dimension, régression linéaire gaussienne, calibration de constantes.