Les progrès récents des biotechnologies à haut débit facilitent l'accès à de vastes ensembles de données, ce qui représente à la fois des opportunités et des défis pour la biostatistique.
Dans ce contexte, les méthodes à noyau, qui offrent une version non linéaire de tout algorithme linéaire uniquement basé sur le produit scalaire, sont particulièrement adaptées à l'analyse et à l'intégration de données de grande dimension.
Cette thèse s'inscrit dans le cadre du projet européen E-MUSE, « Complex microbial ecosystems multiscale modelling : mechanistic and data driven approaches integration ». Ce travail aborde les défis posés par l'interprétabilité des méthodes à noyau et l'intégration de sources hétérogènes.
Tout d'abord, nous présentons la méthode du gradient interprétable pour l'analyse en composantes principales à noyau (KPCA-IG). Contrairement aux techniques existantes basées sur la permutation, KPCA-IG classe les variables de manière déterministe sur la base des dérivées partielles du noyau, offrant ainsi une solution efficace sur le plan du calcul et interprétable sur le plan biologique.
Grâce à des expériences sur des ensembles de données simulées et réelles et, grâce à une approche plus théorique, nous démontrons la capacité de KPCA-IG à identifier les caractéristiques d'entrée pertinentes.
En outre, nous proposons un nouveau package R, kpcaIG, pour mettre cette méthode à la disposition des praticiens. Nous l'appliquons ensuite à des données provenant du projet E-MUSE afin d'élucider les relations bactériennes mutualistes dans les communautés microbiennes de fromage.
En outre, cette thèse explore le multiple kernel learning (MKL) pour l'intégration de données omiques provenant de diverses sources.
Nous proposons de nouvelles approches MKL en adaptant des algorithmes d'intégration non supervisés à des tâches supervisées avec des machines à vecteurs de support. Nous testons également de nouvelles architectures d'apprentissage profond pour la fusion et la classification des noyaux. Les résultats montrent que les modèles basés sur MKL peuvent être plus performants que les approches d'intégration multi-omique supervisées plus complexes et plus modernes.
Dans la recherche où la collaboration interdisciplinaire est de plus en plus nécessaire, notre travail comble le fossé entre les développements méthodologiques et les applications pertinentes en biologie et en médecine de précision, en étudiant l'analyse non linéaire de données multi-omiques et l'intégration avec des approches à noyau.