2ᵉ Journée Doctorant·e·s Rennais·e·s en Statistique - 2025

Europe/Paris
Amphi Lebesgue (IRMAR)

Amphi Lebesgue

IRMAR

Campus de Beaulieu Rez-de-chaussée du bâtiment 22-23 35042 Rennes France
Description

Nous sommes ravi·e·s de vous convier à la seconde édition de la Journée (ici une matinée) des (post-)Doctorant·e·s Rennais·e·s en Statistique. Cet événement a pour objectif de créer un espace d'échange où les doctorant·e·s et post-doctorant·e·s en statistiques, quelle que soit l'année de leur thèse, peuvent se rencontrer, échanger et présenter leurs travaux de recherche.

Objectif

Cette conférence vise à favoriser les échanges entre les (post-)doctorant·e·s en offrant l'opportunité de partager leurs travaux et de discuter de leurs projets avec leurs pairs. Qu'ils soient au début de leur parcours ou sur le point de conclure leur thèse, tou·te·s les doctorant·e·s (et les post-doctorant·e·s) sont les bienvenu·e·s pour présenter leurs travaux, bénéficier de retours constructifs et établir des liens au sein de la communauté.

Ouverture à tou·te·s

Nous encourageons vivement la participation de tous les chercheurs et chercheuses du domaine ou intéressé·e·s par les statistiques pour contribuer à partager vos connaissances et participer au débat.

Date et Lieu

Le vendredi 16 mai à l'IRMAR (Campus de Beaulieu) de 9h à 12h.
Il y aura un acceuil café à 9h, les premières présentations commenceront à 9h20.

Comment Participer

Les (post-)doctorant·e·s souhaitant présenter leurs travaux peuvent soumettre un résumé avant le vendredi 25 avril dans l'onglet "Participation". 

Les personnes intéressées pour assister à l'événement peuvent s'inscrire en tant que participant·e·s dans l'onglet "Inscription" avant le vendredi 09 mai.

    • Matin: 1
      • 1
        Conditions environnementales extrêmes en mer : application au cas du Raz Blanchard

        Le Raz Blanchard, détroit situé dans la Manche au large du cap de la Hague (Manche, Normandie) et l’île anglo-normande d’Aurigny, est connu pour ses forts courants de marée, pouvant atteindre jusqu’à 5 mètres par seconde, et l'important potentiel énergétique qui en découle. À cette dynamique intense s’ajoutent des états de mer complexes ainsi que la survenue d’événements extrêmes, tels que la tempête Ciarán (2023), qui représentent des risques majeurs pour les structures offshore et sous-marines.

        Ce travail présente les premiers résultats de la caractérisation des événements de vagues extrêmes et de leurs interactions avec les courants de marée, à partir de la base de données RESOURCECODE, qui compile 30 années de simulations (1994-2024) issues de modèles numériques haute résolution. L’analyse des hauteurs significatives de vagues repose sur l’utilisation conjointe de lois de Pareto généralisées et de modèles additifs généralisés.

        Les résultats révèlent que les vagues extrêmes coïncident fréquemment avec les phases de courant les plus rapides, ainsi qu'avec des houles relativement longues. Il ressort également que les vagues se propageant à contre-courant sont en moyenne plus hautes. Ces phénomènes intensifient donc les sollicitations exercées sur les structures posées sur le fond marin, mettant en évidence la nécessité d’intégrer des valeurs de retour d'événements extrêmes multivariés dans les processus de conception, afin d'assurer leur durabilité à long terme.

        Orateur: Paul-Adrien Alves (Ifremer)
      • 2
        Estimating the spectral properties of spatial point processes

        Understanding how objects are distributed in space, like trees in a forest, can reveal important patterns. One way to study these patterns is through spectral methods, which analyze the data in terms of frequencies. This approach focuses on estimating a quantity called the structure factor.

        In this work, we establish a minimax lower bound: we quantify the best possible accuracy that any estimator of the structure factor can achieve, depending on how smooth the underlying pattern is. We then construct an estimator that reaches this optimal accuracy. However, it requires prior knowledge of certain properties of the data.

        To make our method practical, we design a data-driven procedure that automatically learns these properties. It works by repeatedly thinning the points at random (i.e., removing some points) and exploiting correlations between different frequencies.

        Orateur: Gabriel Mastrilli
      • 3
        Attributed Graph Partitioning: Comparing K-Means and Optimal Transport in Traffic Applications

        Le partitionnement d’un graphe attribué consiste à diviser les sommets en clusters distincts en tenant compte de la structure du graphe et des attributs des nœuds. L’objectif est d’adapter et de comparer deux méthodes de partitionnement de graphes attribués : $k$-Fréchet means et une méthode issue du transport optimal. Cette dernière exploite une contrainte de masse relaxée pour déterminer des partitions sans prédéfinir le nombre de clusters. Nous étendons ces approches en combinant les distances topologiques et celles basées sur les attributs, afin de les appliquer aux graphes attribués. Un cadre de simulation permettra d’évaluer ces méthodes dans divers scénarios, en variant l’alignement entre les attributs des nœuds et les structures communautaires du graphe, ainsi que l’influence du bruit. Nous illustrerons ces méthodes avec des données réelles de mobilité. Les réseaux routiers peuvent en effet être modélisés comme des graphes avec des attributs (flux moyen de trafic, profils de vitesse), et partitionner ces réseaux facilite leur compréhension et gestion. Le choix de distances adaptées aux formes spécifiques de ces attributs (données fonctionnelles pour le trafic, histogrammes pour les vitesses) sera également discuté.

        Orateur: Ketsia Guichard-Sustowski (Univ Rennes, CNRS, IRMAR - UMR 6625)
      • 4
        Comment mesurer la dispersion des dépenses annuelles des ménages à partir des enquêtes Budget de famille ?

        Dans les enquêtes Budget de familles, certains postes de dépenses courantes, comme les dépenses de carburant, sont renseignées à partir d'un carnet de dépense, et donc seulement sur une courte période (une semaine). Ces enquêtes reconstituent donc les dépenses annuelles à partir de dépenses hebdomadaires et permettent d’estimer sans biais la moyenne des dépenses par groupe de ménages. En revanche, elles ne sont pas conçues pour estimer des paramètres relatifs à la distribution des dépenses annuelles, comme sa variance, ses quantiles ou encore la part de ménages considérés comme des « gros rouleurs ». Cela limite l’étude des effets redistributifs de politiques publiques, par exemple d’un chèque-énergie, et ignorer ces limites peut conduire à des conclusions erronées.

        À l'aide de données de comptes bancaires, nous estimons l’ampleur des biais sur la distribution des dépenses annuelles de carburant introduits par l’extrapolation de dépenses sur une semaine. Les données bancaires permettent en effet un suivi précis, sur plusieurs années, des dépenses de carburant d’un panel d’environ 400 000 clients. Nous étudierons également des méthodes d'estimation alternatives en les appliquant sur ces données.

        Orateur: Jean Rubin (Ensai/Insee)
    • Matin: 2
      • 5
        Modèle de mélange de régressions fonctionnelles pour l’association à l’échelle du génome entre l’expression des gènes et l’accessibilité de la chromatin

        Les agents pathogènes des plantes s’adaptent à différents stress environnementaux pour se développer et survivre. Les variations épigénétiques jouent un rôle crucial dans ces acclimatations menant à une adaptation. Elles façonnent à court terme des réponses phénotypiques à ces stress en modifiant la régulation des gènes sans altérer la séquence de l’ADN. Le champignon filamenteux Fusarium graminearum est un exemple de phytopathogène très résistant responsable de dommages aux cultures de céréales à petits grains, capable de s’adapter aux variations abruptes des conditions environnementales, et produisant des mycotoxines , contaminants fréquents des produits céréaliers destinés à l’alimentation humaine et animale.
        Parmi les mécanismes épigénétiques clés qui régulent l’expression des gènes, les variations de l’accessibilité de la chromatine sont particulièrement importantes. Les technologies de séquençage à haut débit, telles que MAINE-seq, sont spécifiquement conçues pour capturer ces variations à l’échelle du génome.
        Les études comparant un large éventail de méthodes de prédictions de l’expression par les signaux d’accessibilité de la chromatine montrent que celles-ci ne distinguent souvent que des différences entre les niveaux d’expression génique faibles et élevés - y compris les méthodes d’ensemble telles que les forêts aléatoires et les réseaux neuronaux. Nos premières analyses sur F. graminearum. confirment ces résultats et révèlent une hétérogénéité des performances de prédiction sur l’ensemble du génome. Pour tenir compte de cette hétérogénéité, nous proposons un modèle de mélange de régressions fonctionnelles pénalisées, qui met en évidence une diversité de modèles d’association très performants pour de grands groupes de gènes.

        Orateur: Mathilde Bruguet
      • 6
        A general representation of conditional hazard functions in survival analysis

        The conditional hazard functions allow for a user-friendly representation as a ratio between the joint density and a conditional expectation. This representation is known in the case of right-censoring. We show that a similar representation can be derived in many situations where an incompleteness mechanism prevents the observation of T for all individuals. Our examples include models with left or right random censoring, with or without random truncation, with or without a cure fraction, and some types of modified current status models. If such ratio-type representations of conditional hazard can be established, this opens the door to the use of appropriate nonparametric estimators of the numerator and denominator.

        Orateur: Daphné Aurouet (CREST, Ensai)
      • 7
        Évaluation des hypothèses relatives à l'optimisation des moindres carrés ordinaires dans un contexte de déconvolution de données multi-omiques

        Dans un contexte de données multi-omiques de benchmark relatives au cancer du pancreas, l’objectif est d’inférer l’hétérogénéité cellulaire. Les données de benchmark sont des données de référence obtenues par expérimentation in vitro. Dans le cas présent, les données sont de nature multi-omique. En l’occurrence, transcriptomique et méthylomique. L’inférence de l’hétérogénéité cellulaire, ou déconvolution cellulaire, est un moyen d’estimer des proportions de types cellulaires dans un bulk de cellules à partir de données de référence.

        En théorie, un bulk est la résultante de la somme d’un signal et d’un bruit. Le signal correspond aux proportions des types cellulaires attendues dans le tissu bulk, multipliées par des valeurs de référence spécifiques à chaque type cellulaire. Dans ce contexte, les individus statistiques considérés sont des gènes pour lesquels des données de méthylome et de transcriptome ont été récoltées.

        Les méthodes de déconvolution sont, pour la plupart, basées sur les moindres carrés ordinaires. Or, les moindres carrés ordinaires supposent que les données respectent des hypothèses de normalité, d’homoscédasticité et de centralité du bruit ainsi que d'indépendance des individus.

        Toutes les hypothèses sont remises en question par la nature intrinsèque des données de méthylome et de transcriptome. Cette présentation porte sur l'hypothèse d'homoscédasticité. L’idée est de voir la relation de dépendance, si elle existe, entre l'expression d'un gène et les variation du bruit observé dans nos données expérimentales. Aussi sera-t-il possible d’observer la part de signal et la part de bruit dans un bulk de cellules. Observer une relation de dépendance entre le gène et les variations du bruit témoigneraient de l'hétéroscédasticité du bruit. Comprendre cette relation entre le gène et le bruit et comprendre la part de bruit dans un bulk de cellules mènerait au développement de méthodes de déconvolution plus adaptées aux données omiques.

        Orateur: Elouan Deffains (Institut agro Rennes Angers)