Statistique - Probabilités - Optimisation et Contrôle

Perrine Lacroix (École normale supérieure de Lyon) "Généralisation de la méthode de l’heuristique de pente pour la sélection de variables en régression linéaire Gaussienne de grande dimension"

Europe/Paris
Description

Les données d’expression de gènes sont typiquement caractérisées par un grand nombre de variables descriptives pour un nombre limité d’observations. Identifier les variables pertinentes est une étape cruciale dans l’exploitation des données et leur interprétation. Dans un contexte de grande dimension, une approche classique pour estimer le paramètre inconnu en régression linéaire gaussienne consiste à minimiser les moindres carrés pénalisés. Le challenge porte sur la définition de la fonction de pénalité pour satisfaire une inégalité oracle sur le risque prédictif. Dans cet exposé, je présenterai d’abord une revue de certaines pénalités existantes que je compare via une large étude de simulation. Cette dernière met en évidence l’échec d’une d’entre elles, probablement dû à une mauvaise calibration des deux constantes inconnues intervenant dans la pénalité. Cette observation a motivé l’implémentation d’un nouvel algorithme, extension de celui disponible dans le R package Capushe et qui code la méthode de l’heuristique de pente pour calibrer une constante. L’algorithme proposé permet de calibrer deux constantes simultanément et prend en compte le caractère aléatoire de la collection de modèles. Enfin, cet nouvel algorithme est appliqué sur un jeu de données transcriptomiques de la plante Arabidopsis thaliana pour identifier les facteurs de transcription d’un gène cible.

 

Mots-clés : Sélection de modèle, grande dimension, pénalisation, Calibration de constantes, heuristique de pente.