Journée Doctorant·e·s Rennais·e·s en Statistique - 2024

Europe/Paris
Amphi Lebesgue (IRMAR)

Amphi Lebesgue

IRMAR

Campus de Beaulieu Rez-de-chaussée du bâtiment 22-23 35042 Rennes France
Description

Nous sommes ravi·e·s de vous convier à la toute première édition de la Journée des (post-)Doctorant·e·s Rennais·e·s en Statistiques. Cet événement a pour objectif de créer un espace d'échange où les doctorant·e·s et post-doctorant·e·s en statistiques, quelle que soit l'année de leur thèse, peuvent se rencontrer, échanger et présenter leurs travaux de recherche.

Objectif

Cette conférence vise à favoriser les échanges entre les (post-)doctorant·e·s en offrant l'opportunité de partager leurs travaux et de discuter de leurs projets avec leurs pairs. Qu'ils soient au début de leur parcours ou sur le point de conclure leur thèse, tou·te·s les doctorant·e·s (et les post-doctorant·e·s) sont les bienvenu·e·s pour présenter leurs travaux, bénéficier de retours constructifs et établir des liens au sein de la communauté.

Ouverture à tou·te·s

Nous encourageons vivement la participation de tous les chercheurs et chercheuses du domaine ou intéressé·e·s par les statistiques pour contribuer à partager vos connaissances et participer au débat.

Date et Lieu

Le lundi 18 mars, à l'IRMAR (Campus de Beaulieu). Les détails de la journée seront donnés prochainement.

Comment Participer

Les (post-)doctorant·e·s souhaitant présenter leurs travaux peuvent soumettre un résumé avant le lundi 4 mars dans l'onglet "Participation". 

Les personnes intéressées pour assister à l'événement peuvent s'inscrire en tant que participant·e·s dans l'onglet "Inscription" avant le vendredi 15 mars.

    • 09:00 10:30
      Statistiques appliquées
      • 09:00
        Exploration de données de mobilité citoyenne par l'analyse de données fonctionnelles 20m

        "Notre objectif est d’étudier comment les données de comptage issues d’un projet de science citoyenne peuvent contribuer à améliorer la connaissance des mobilités d’un territoire. Nous explorerons comment une méthodologie statistique, plus particulièrement l'analyse de données fonctionnelles, peut aider à analyser les caractéristiques de ces données spatio-temporelles.

        Dans les modèles de trafic, la modélisation est faite pour un unique jour censé représenter un comportement général de mobilité (jour de la semaine hors mercredi). Nous nous posons ici la question de savoir à quel point les jours ouvrables (du lundi au vendredi) représentent un ensemble homogène et tentons d'y répondre à l'aide d'une analyse en composantes principales fonctionnelle.

        Orateur: Mme Ketsia Guichard (Université de Rennes - IRMAR)
      • 09:20
        Prédiction du taux de pollens dans l’air à partir de mesures photoéléctriques 20m

        Il s’agit de prédire le taux de pollens dans l’air à partir de mesures photoélec
        trique obtenues par le capteur développé par l’entreprise LifyAir. Ce capteur prend
        40 mesures photoélectriques toutes les 10 secondes. Cependant, à cause des diffé
        rents facteurs de l’environnement extérieur (vents, pluies, sables, pollution, etc.) ces
        données contiennent beaucoup de bruits. Pour ce problème, nous bénéficions d’une
        vérité terrain qui est obtenue à partir d’un autre capteur (beaucoup plus coûteux
        et ne permettant pas l’obtention de données en temps réel, d’où l’enjeu de notre
        recherche) et qui donne la concentration de chaque type de pollens dans l’air toutes
        les deux heures. La première étape est donc de nettoyer les données du capteur de
        LifyAir. À ces fins, j’ai eu l’idée, d’après mes lectures (surtout [ZP17]), de développer
        un AutoEncoder régularisé. L’idée est de minimiser le terme suivant :
        min
        XLifyAir“LS ∥L ´ DpEpLqq∥ λ1∥S∥ ` λ2∥FpLq ´ H∥
        où XLifyAir sont nos données photoélectrique, D et E sont les deux parties d’un
        AutoEncoder, F est la fonction qui nous permet d’obtenir la concentration totale de
        particules dans l’air toutes les 2 heures à partir des données photoélectriques (c’est
        une méthode qui provient de la physique) et H est la concentration totale de pollens
        dans l’air toutes les 2 heures obtenue à partir de la vérité terrain. Dans l’idée L ne
        contiendrait que les données qui comptent véritablement des pollens.

        Orateur: M. Pierre Houédry (IRMAR)
      • 09:40
        Mitigating Relative Age Effect in Sports Performance Evaluation: Constructing Performance Corridors with Mixed Models 20m

        This study aimed to develop a new statistical approach to assess the effect of chronological age on physical performance.

        1740 Elite French youth rugby union players were initially recruited. Time to complete a 50m sprint, broad jump for distance and maximal aerobic speed were retained for analysis. Linear Mixed models were used to model the relationship between chronological age and physical performance with log transformations on both variables to account for the non-linearity of their relationship. Additionally, confidence intervals ranging from 10 to 90% were used to rank individual’s with respect to all performances of a same age category while accounting for the chronological age at which it was achieved. Furthermore a second approach using estimated individual effects were computed to represent an individualized expected progression curve.

        The results of this study provided novel methodological insights. First the integration of a double logarithmic transformation improved the predictive capabilities of the model used in this study. Additionally, the use of confidence interval allow a better representation of individual physical performance compare to the rest of the population. Finally, individual expected progression curve could be consider to track athletes’ progress overtime.

        Orateur: Mme Nolwenn Pinczon-du-Sel (Institut Agro, CNRS, IRMAR, Rennes, France)
      • 10:00
        Optimizing the overall performance of cheese industrial production through a statistical approach 20m

        The cheese-making process although standardized faces variability, impacting performance indicators, i.e. product quality reproducibility and economic result. To enhance performance indicators, addressing all variability sources is essential. Despite vast data collections all along the cheese-making process, the potential for its exploitation remains largely underutilized. Integrating artificial intelligence, particularly machine learning (ML), offers new perspectives through data-driven, multi-objective optimization (MOO) approach. In this study MOO was used to enhance the overall performance of a cheese manufacturing plant. ML models elucidate variability in each performance indicator, establishing complex parameter-indicator relationships. MOO addresses conflicting performance objectives simultaneously and enables compromises between indicators, proposing viable solutions. In summary, the use MOO with ML to maximize overall performance represents a breakthrough for dairy industries.

        Orateur: Mme Manon Perrignon (STLO, INRAE, Institut Agro, Rennes)
    • 10:30 11:00
      Pause café 30m
    • 11:00 12:30
      Statistiques appliquées : Biologie
      • 11:00
        Prédiction de l'expression des gènes à partir de données épigénomiques chez le Fusarium à l’aide de méthodes de machine learning et de Deep Learning 20m

        Le Fusarium est un bioagresseur du blé, connu pour ses capacités d’adaptation rapide aux changements environnementaux, dues à des variations épigénétiques. À des intervalles de temps courts, les variations épigénétiques peuvent permettre des changements phénotypiques dûs à la modification de l’expression génique, sans changement de la séquence génomique. Ainsi, les génomes et épigénomes interagissent avec l’environnement et contribuent à l’adaptation des organismes et à leurs capacités de résilience. Néanmoins, d’autres variations génétiques entrent en jeu dans les phénomènes d’adaptation, c’est pourquoi ici nous utilisons des données sur le Fusarium qui est un organisme se reproduisant de manière clonale et où l’adaptation par variation génétique est moindre. L’étude des variations d’expression est donc envisagée ici par l’étude des mécanismes épigénétiques, notamment par la variation de l’accessibilité de la chromatine qui joue un rôle majeur dans la transcription d’un gène et donc dans son expression. On obtient ces informations grâce à un séquençage MAINEseq et l’expression des gènes est obtenue par séquençage RNAseq. Une première approche statistique vise à l’apprentissage de la structure épigénomique le long du gène afin de traduire son expression à l’aide d’une grande variété de méthodes de machine learning (régression linéaire, random forest, et deep learning), ce qui a conduit à des résultats peu concluants. Partant de l'observation que le signal d'expression dans l'amorce de la partie codante du gène est à la fois bien corrélé au signal épignéomique et à l'expression complète du gène, nous proposons une nouvelle méthode d’apprentissage où les signaux de motifs épigénétiques sont utilisés pour prédire le signal d’expression, cette fois le long de la séquence nucléotidique, dans une démarche de prédiction dite function-to-function.

        Orateur: Mme Mathilde Bruguet (Institut Agro, MycSA)
      • 11:20
        Wheat Fusarium Head Blight (FHB) evolution with climate change: an ecological modelling approach of competing fungal species 20m

        Fusarium head blight (FHB) poses a significant threat to wheat production and food safety. Various fungal species within the Fusarium genus are responsible for FHB and compete with each other. Understanding the ecophysiology of these species is crucial for predicting their distribution with climate change in France.
        In our study, we analyzed data from an in vitro experiment involving 25 strains from five different Fusarium species, grown under various water conditions and temperatures. By studying the growth probability of these strains in different environmental conditions, we identified species with varying sensitivities to temperature and water conditions. We then developed growth kinetics models for these strains, estimating distinct biological growth parameters and their relationships with environmental factors.
        Furthermore, we conducted additional experiments involving the co-culture of different strains within wells. We aimed to model the competitive dynamics within these wells using Lotka-Volterra differential equation systems, incorporating the growth parameters obtained earlier. However, preliminary results revealed a discrepancy between the experimental data and expected outcomes, prompting us to address whether the issue lies in the model , our assumptions, we have or the data itself.
        This dilemma underscores a central and long-standing scientific question: when faced with discrepancies between experimental data and model predictions, should we question the validity of the model or the accuracy / quality of the data?

        Orateur: Dr Rémi Mahmoud (INRAE)
      • 11:40
        Absence et présence d'une espèce dans un écosystème, modélisation et inférence 20m

        Déterminer si une espèce sera présente ou absente d'un écosystème à un moment donné est une question centrale en écologie, tant elle peut déterminer la bonne santé de cet écosystème, ou sa dynamique dans le temps. On propose ici de modéliser cette absence/présence par une version temporelle du modèle de régression probit multivarié. Les paramètres de ce modèle sont facilement interprétables, et fournissent des informations clés quant à la dynamique de l'écosystème étudié.

        Les garanties d'existence et d'unicité du processus modélisant cette absence/présence seront étudiées, et on discutera des différentes stratégies d'estimation des paramètres du modèle. En pratique, la qualité de telles estimations est fortement impactée par le manque d'observations temporelles en écologie. C'est pourquoi une généralisation des résultats d'estimation aux données de panel sera présentée.

        Enfin, on présentera à titre d'exemple des résultats sur données simulées et réelles, notamment sur la présence de micro-algues toxiques sur les côtes écossaises.

        Orateur: M. Guillaume Franchi (ENSAI/CREST)
      • 12:00
        Study of the onset of the first arrest among telomere lineages and the various paths to senescence 20m

        In this talk, I will first introduce what are telomeres, and the experimental design used to produce the data of single of telomerase negative yeast lineages.Such lineages display precocious abnormally long cell cycles, that occure earlier than the fatal phase of replicative senescence. Then I will present two models to predict and understand the onset of the first long cycle. Finally, I will present two aspects that distinguish early long cycles from replicative senescence.

        Orateur: M. Hugo Martin
    • 12:30 14:00
      Cocktail déjeunatoire 1h 30m
    • 14:00 15:20
      Statistique théorique
      • 14:00
        Sélection de modèle d'équations structurelles à variables latentes à l'aide du critère Integrated Complete Likelihood exact 20m

        Les modèles d'équations structurelles à variables latentes sont de plus en plus utilisés en sciences du vivant pour leur modélisation holistique incluant des hypothèses causales actionnables entre les variables observées ou latentes (Shipley, 2002). Lors d'une sélection entre divers modèles candidats, les critères d'informations classiques n'ont de résultats que dans un cadre asymptotique, et ne prennent pas en compte les variables latentes (Bollen et al., 2014). L'objectif est de développer un critère SEM-ICL, inspiré de l'ICL utilisé pour les modèles de mélange (Biernacki et al., 2010), prenant en compte les variables latentes par une approche bayésienne, adoptant une forme exacte.

        Orateur: Anaïs Widmer (IRMAR)
      • 14:20
        Conditional Lifetimes: A nonparametric and recursive approach 20m

        Based on the increasing demand for analyzing continuously updated data sets in the context of time-to-event modeling, we propose a novel recursive approach to estimate the conditional hazard function given a set of predictors, when the duration of interest is randomly right-censored. The method is based on a simple representation of the conditional hazard function using a density and a conditional expectation which can be estimated recursively by kernel smoothing. To evaluate the performance of our estimator, we conduct numerical studies and demonstrate its practical utility using a real-world example.

        Orateur: Mme Daphné Arouet (ENSAI/CREST)
      • 14:40
        Estimation de variance bootstrap pour un échantillonnage équilibré : vers la construction d’un tirage avec remise 20m

        La théorie des sondages cherche à déterminer des caractéristiques d’une population finie à partir d’informations partielles recueillies dans un échantillon de cette dernière. Les plans de sondages construits peuvent faire intervenir des mécanismes complexes pour améliorer la qualité des estimations ou simplement pour répondre à des contraintes techniques (stratification, échantillonnage à plusieurs degrés, correction de non-réponse, etc . . .)[1]. Ainsi, la question de la quantification des incertitudes des estimations obtenues devient difficile tout en demeurant cruciale.

        Nous nous concentrerons sur le mécanisme particulier de l’équilibrage, qui consiste à tirer des échantillons respectant une information connue sur la population (par exemple, la distribution âge-sexe) [2, 3]. Une technique d’estimation de variance appelée bootstrap, simple d’utilisation, se base sur un rééchantillonnage des observations. Pour utiliser une telle approche, nous allons d’abord voir comment construire un tirage équilibré avec remise, en généralisant la méthode dite du cube [2].

        [1] Fuller, W. A. (2011). Sampling statistics, volume 560. John Wiley & Sons.
        [2] Deville, J.-C. and Tillé, Y. (2004). Efficient balanced sampling: the cube method. Biometrika, 91(4):893–912.
        [3] Deville, J.-C. and Tillé, Y. (2005). Variance approximation under balanced sampling. Journal of statistical planning and Inference, 128(2):569–591.

        Orateur: M. Jean Rubin (Ensai/Insee)
      • 15:00
        Analyse du mouvement des trajectoires d’un processus birth-death-mutation-move et détection des instants de changement de régime grâce aux modèles de Markov à états cachés et à l’algorithme EM 20m

        Ma thèse se concentre sur un processus, appelé « birth-death-mutation-move process » permettant de modéliser la dynamique d’un système de particules qui se déplacent au fil du temps, tandis que de nouvelles particules peuvent apparaître et que certaines particules existantes peuvent disparaître. Dans ce modèle, les trajectoires peuvent être générées par n’importe quel modèle de diffusion de Markov continu, et peuvent changer de mouvement au cours de leur durée de vie. Après avoir présenté rapidement ce modèle, je m’attarderai sur ce qui constitue un des pans de ma thèse, dans lequel les trajectoires peuvent suivre trois modèles de diffusion possibles : un mouvement brownien, un mouvement dirigé (qui est souvent un mouvement brownien dirigé), et un mouvement confiné (qui peut, par exemple, être modélisé par un processus d’Ornstein-Uhlenbeck). L'objectif est de déterminer les paramètres caractérisant ces trois types de mouvements, ainsi que d'identifier les moments où une particule passe d'un régime de mouvement à un autre. Pour cela, j'utiliserai un algorithme de type Expectation-Maximization (EM) conjointement avec un modèle de Markov à états cachés.

        Orateur: Mme Lisa Balsollier (LMJL (Nantes Université), SERPICO (Inria Rennes))
    • 15:20 15:45
      Pause café 25m
    • 15:45 16:45
      Statistique théorique
      • 15:45
        Discrete Optimization Methods for l0-norm Problems 20m

        Sparse linear models are ubiquitous in various applied mathematical fields such as high-dimensional statistics, machine learning and signal processing, among many others. Constructing such models can be done via the resolution of optimization problems of the form
        \begin{equation}
        \label{prob}
        \tag{$\mathcal{P}$}
        \textstyle\min_{\mathbf{x} \in \mathbf{R}^{n}} \ f(\mathbf{x}) + \lambda |\mathbf{x}|_0
        \end{equation}
        where $f(\cdot)$ is some model-dependent loss function, $\|\cdot\|_0$ is the so-called ``$\ell_0$-norm'' which promotes sparsity by counting the number of non-zero entries in its argument and $\lambda > 0$ is a tuning hyperparameter. Although the solutions of \eqref{prob} generally benefit from desirable statistical properties, this problem is NP-hard to solve in the general case and has long been considered intractable. Nonetheless, recent contributions have revived the interest in solving \eqref{prob} and several lines of research have outlined that this problem can sometimes be solved efficiently via discrete optimization methods. We propose to discuss the statistical relevance of \eqref{prob} regarding other strategies allowing to construct sparse linear models and review the recent advances made to solve this problem exactly. In particular, we will introduce some tools derived from the discrete optimization community that appear to be well-tailored to address this problem.

        Orateur: Theo Guyard (INSA Rennes / INRIA Rennes)
      • 16:05
        Directional regularity: Achieving faster rates of convergence in multivariate functional data 25m

        We introduce a new notion of regularity, called directional regularity, which is rele- vant for a wide range of applications involving multivariate functional data. We show that for anisotropic functional data, faster rates of convergence can be obtained by adapting to its directional regularity through a change of basis. An algorithm is constructed for the estimation and identification of the directional regularity for a large class of stochastic processes, made possible due to the unique replication nature of functional data. Accompanying non-asymptotic theoretical guarantees are provided. A novel simulation algorithm, which is of independent interest, is designed to evaluate the numerical accuracy of our directional regularity algorithm. Simulation results demon- strate the good finite sample properties of our estimator, which is freely available in the R package direg.

        Orateur: M. Omar Kassi (ENSAI)
    • 16:45 18:00
      Pause café - Moment d'échange 1h 15m