Le jury sera composé de :
Rasmus Bro, Université de Copenhagen, rapporteur
Hervé Cardot, Université de Bourgogne, examinateur
Caroline Chaux, CNRS, examinatrice
Gabriela Ciuperca, Université Lyon 1, examinatrice
Laurent Duval, IFPEN, co-directeur
Rami El-Haddad, Université Saint Joseph de Beyrouth, co-directeur
Céline Helbert, Ecole centrale de Lyon, invitée
Sophie Lambert-Lacroix, Université de Grenoble Alpes, rapporteure
Clément Marteau, Université Lyon 1, directeur de thèse
Un lien Zoom est également disponible pour une participation à distance:
https://cnrs.zoom.us/j/97180648210?pwd=dlVtQXovRGh3UG5qNTI2R2c1T040dz09
Résumé :
La chimie analytique est essentielle pour l’identification, la quantification et la caractérisation de substances chimiques complexes, notamment le pétrole, qui est une partie intégrante de la vie moderne. Leurs propriétés physico-chimiques sont essentielles et peuvent influencer la qualité des produits dérivés, cependant, leur extraction est coûteuse et nécessite beaucoup de ressources. La spectroscopie est une méthode d’analyse rapide largement utilisée qui fournit un profil de signal représenté par des données fonctionnelles pour caractériser les mélanges. Les techniques de chimiométrie peuvent créer des modèles qui prédisent les propriétés, représentées par le vecteur y, en utilisant des spectres d’analyse rapides, représentés par la matrice X. Les deux principaux objectifs de cette thèse sont les suivants : prédire les propriétés physico-chimiques de nouveaux mélanges à partir de mélanges de référence et fournir des informations supplémentaires sur les parties les plus pertinentes du signal. Elle s’inscrit dans un contexte de régression linéaire traitant des données de grande dimension. Cette thèse utilise des données chimiométriques réelles et propose un algorithme de simulation pour générer des données imitant. Une technique de division en calibration et validation appelée CalValXy a été conçue pour l’évaluation des prédictions. Elle met l’accent sur l’exploitation des informations à la fois des variables prédictives X et des variables de réponse y. Des techniques de réduction de dimension, telles que les moindres carrés partiels (PLS) et le lasso, sont explorées. Une nouvelle approche appelée Dual Sparse Partial Least Squares est proposée, combinant les avantages des deux techniques pour une interprétation améliorée et une précision de prédiction accrue. La méthode utilise une norme duale de pénalités sélectionnées, avec quatre types de normes suggérées. Des tests comparatifs démontrent une meilleure interprétation et une prédiction précise. Pour faciliter la mise en œuvre, un package R appelé dual.spls comprend tous les algorithmes développés au cours de cette thèse.