Dans le domaine de la transcriptomique, les avancées technologiques, telles que les puces à ADN et le séquençage à haut-débit, ont permis de quantifier l'expression génique à grande échelle. Ces progrès ont soulevé des défis statistiques, notamment pour l'analyse d'expression différentielle, visant à identifier les gènes différenciant significativement deux populations. Cependant, les procédures classiques d'inférence perdent leurs garanties de contrôle du taux de faux positifs lorsque les biologistes sélectionnent un sous-ensemble de gènes. Les méthodes d'inférence post hoc surmontent cette limitation en garantissant un contrôle sur le nombre de faux positifs, même pour des ensembles de gènes sélectionnés de manière arbitraire. La première contribution de ce manuscrit démontre l'efficacité de ces méthodes pour les données transcriptomiques de deux conditions biologiques, notamment grâce à l'introduction d'un algorithme de calcul des bornes post hoc à complexité linéaire, adapté à la grande dimension des données. Une application interactive a également été développée, facilitant la sélection et l'évaluation simultanée des bornes post hoc pour des ensembles de gènes d'intérêt. Ces contributions sont présentées dans la première partie du manuscrit.
L’évolution technologique vers le séquençage en cellule unique a soulevé de nouvelles questions, notamment l'identification des gènes dont l'expression se distingue d'un groupe cellulaire à un (des) autre(s). Cette problématique est complexe car les groupes cellulaires doivent d'abord être estimés par une méthode de clustering, avant d’effectuer un test comparatif, menant ainsi à une analyse circulaire. Dans la seconde partie de ce manuscrit, nous présentons une revue des méthodes d'inférence post-clustering résolvant ce problème ainsi qu'une comparaison numérique des approches multivariées et marginales de comparaison de classes. Enfin, nous explorons comment l'utilisation des modèles de mélange dans l'étape de clustering peut être exploitée dans les tests post-clustering, et nous discutons de perspectives pour l'application de ces tests aux données transcriptomiques.