Le jury est composé de :
- Mme Sophie Abby, Université Grenoble Alpes, Examinatrice
- M. Bruno Franzetti, CEA Grenoble, Rapporteur
- M. Yaël Frégier, Université d'Artois, Rapporteur
- M. Jean Mary, Sorbonne Université, Examinateur
- M. Simon Masnou, Université Claude Bernard Lyon 1, Examinateur
- M. Philippe Malbos, Université Claude Bernard Lyon 1, Directeur de thèse
- Mme Céline Brochier-Armanet, Université Claude Bernard Lyon 1, Co-directrice de thèse
- Mme Fida El Chami, Université Libanaise, Co-encadrante de thèse
- M. Kenji Iohara, Université Claude Bernard Lyon 1, Co-encadrant de thèse
Résumé :
Au-delà de leur rôle fonctionnel dans les cellules, les protéines constituent un matériel important en biologie évolutive parce qu’elles contiennent un signal phylogénétique qui peut être utilisé pour retracer leur histoire évolutive, ainsi que celle des organismes. Ce signal est traditionnellement étudié par des méthodes de phylogénie moléculaire basées sur la comparaison des séquences protéiques. L'analyse des structures tridimensionnelles (3D) des protéines a toutefois été proposée comme une alternative intéressante, car elles évoluent plus lentement que les séquences et offrent ainsi accès à un signal phylogénétique plus ancien.
Les séquences protéiques jouent également un rôle clé dans l’étude des processus adaptatifs, tels que l'adaptation à la température environnementale, à la salinité ou à la pression. La température environnementale impose de fortes contraintes sur les protéines, notamment sur l’utilisation de certains acides aminés. Par conséquent, la composition en acides aminés des protéomes des organismes est liée à leur température optimale de croissance. La température environnementale exerce également des contraintes qui affectent les structures 3D des protéines.
Cette thèse aborde l’étude de ces structures via l’analyse topologique des données. Nous introduisons des méthodes d’homologie persistante pour analyser l'information biologique contenue dans les structures, notamment concernant leur histoire évolutive et leur adaptation à la température, à travers leurs caractéristiques géométriques globales.
Nous montrons que l’homologie persistante capture un signal phylogénétique dans les structures. Nous définissons également une vectorisation des structures basée sur leurs caractéristiques homologiques persistantes et intégrant leurs propriétés physico-chimiques. Cette approche permet de construire des estimations topologiques des distances évolutives et de développer des modèles prédictifs de la température optimale de croissance d’un groupe majeur d’archées, les Methanococcales, par apprentissage automatique sur ces vectorisations.
Cette thèse aborde également ces questions biologiques sous l'angle de la géométrie spectrale. Nous montrons que le laplacien persistant capture les caractéristiques géométriques liées aux courbures discrètes locales des structures. Nous établissons un théorème de majoration et un théorème de minoration de la courbure d’un espace discret par les valeurs spectrales de son laplacien persistant. Enfin, nous proposons un modèle prédictif d’estimation des températures optimales de croissance des organismes basé sur l’analyse spectrale des structures de leurs protéines.