La médecine de précision vise à adapter les traitements aux caractéristiques de chaque patient, en s'appuyant sur les formalismes des Individualized Treatment Regimes (ITR) et des Dynamic Treatment Regimes (DTR). Les ITR concernent une seule décision thérapeutique, tandis que les DTR permettent l'adaptation des traitements au fil du temps via une séquence de décisions. Pour être efficaces, ces approches doivent traiter des données complexes et intégrer les connaissances médicales, essentielles pour améliorer la précision des recommandations et leur pertinence clinique.
Cette thèse présente trois projets de recherche. Premièrement, un état de l'art des méthodes d'intégration des connaissances médicales dans les modèles d'apprentissage par renforcement a été réalisé, en tenant compte du contexte des DTR et de leurs contraintes spécifiques pour une application sur des données observationnelles. Deuxièmement, une méthode probabiliste de construction des récompenses a été développée pour les modèles d'apprentissage par renforcement, s'appuyant sur les préférences des experts médicaux. Illustrée par des études de cas sur le diabète et le cancer, cette méthode génère des récompenses de manière exploitant les données, évitant les biais de construction manuelle et garantissant une cohérence avec les objectifs médicaux. Troisièmement, un cadre bayésien pour l'Outcome-Weighted Learning (OWL) a été proposé afin de quantifier l'incertitude dans les recommandations de traitement, renforçant ainsi la robustesse des décisions thérapeutiques.
Les contributions de cette thèse visent à améliorer la fiabilité des outils de prise de décision en médecine de précision. En intégrant les connaissances médicales dans les modèles d'apprentissage par renforcement et en proposant un cadre bayésien pour quantifier l'incertitude dans le modèle OWL, ces travaux s'inscrivent dans une perspective globale de collaboration interdisciplinaire en médecine de précision.