Rencontres Statistiques Lyonnaises

Thierry Gonon à 10h45 et Hugues Van Assel à 11h45

par M. Thierry Gonon (EC Lyon) et Hugues Van Assel (ENS Lyon)

Europe/Paris
Salle Séminaire 2, au sous-sol (La doua, bâtiment Braconnier)

Salle Séminaire 2, au sous-sol

La doua, bâtiment Braconnier

Description

Thierry Gonon - EC Lyon de 10h45 à 11h30

Régression par processus Gaussien dans des espaces emboîtés
Les métamodèles sont très largement utilisés dans l’industrie pour prédire la sortie des codes de calcul coûteux. Comme ces codes de calcul font intervenir une grande quantité de variables d’entrée, créer directement un grand métamodèle dépendant de l’ensemble des entrées apparait trop ambitieux. Les industriels choisissent par conséquent de procéder séquentiellement. Ils réalisent des études en plusieurs étapes avec des métamodèles se concentrant sur des ensembles de variables de plus en plus grands. Les variables non prises en compte sont fixées à une valeur nominale. La dimension de l’espace des entrées grandit à chaque étape. Cependant, l’information obtenue aux étapes précédentes est perdue car un nouveau plan d’expérience est généré pour construire le métamodèle. Dans cette thèse, une approche alternative est introduite, utilisant tous les plans d’expériences générés depuis le début plutôt que seulement celui de l’étape en cours. Ce métamodèle utilise la régression par processus Gaussiens et est appelé seqGRP (sequential Gaussian process regression). A chaque étape, la sortie est modélisée par la somme de deux processus : le processus qui modélisait la sortie à l’étape précédente et un processus correctif. Le premier est défini sur le sous-espace d’entrée de l’étape précédente tandis que le deuxième est défini sur le sous-espace de l’étape en cours. Le processus correctif représente l’information apportée par les variables libérées à l’étape concernée. Il a la particularité d’être nul sur le sous-espace de l’étape précédente pour assurer la cohérence de la modélisation entre les étapes. Premièrement, des candidats pour les processus correctifs sont proposés, qui ont la particularité d’être nuls sur un continuum de points. Ensuite, un algorithme d’EM (Expectation-Maximization) est implémenté pour estimer les paramètres des processus. Enfin, le métamodèle seqGPR est comparé à un métamodèle de krigeage classique qui modélise la sortie par un processus Gaussien stationnaire. La comparaison est faite sur deux exemples analytiques, un en deux étapes allant jusqu’à la dimension 4, un autre en trois étapes allant jusqu’à la dimension 15. La méthodologie introduite est également évaluée sur un exemple industriel allant de la dimension 11 à la dimension 15. Dans tous ces cas test, le métamodèle seqGPR a de meilleures performances, ou tout du moins est aussi bon que le krigeage. En parallèle, une méthodologie est proposée pour construire les échantillons d’entraînement du métamodèle. 

Hugues Van Assel - ENS Lyon de 11h45 à 12h30

A Probabilistic Graph Coupling View of Dimension Reduction

Dimension reduction is a long-standing problem for which many algorithms have been proposed. Most popular approaches include spectral (PCA-like algorithms) and pairwise similarity coupling methods (tSNE-like). Deciphering which approach is best suited to a particular case is tedious as these cannot be easily compared. In this talk, we will show that they can be unified as instances of a latent graph coupling model. These graphs induce a Markov random field dependency structure among the observations in both input and latent spaces. Interestingly, what distinguish each method are the priors considered for the latent structuring graphs. Then we will show that methods relying on shift-invariant kernels (e.g. tSNE) suffer from a statistical deficiency that explains poor performances in preserving large scale dependencies and focus on mitigating this effect with a new initialization of the embeddings.