Nous sommes ravi·e·s de vous convier à la toute première édition de la Journée des (post-)Doctorant·e·s Rennais·e·s en Statistiques. Cet événement a pour objectif de créer un espace d'échange où les doctorant·e·s et post-doctorant·e·s en statistiques, quelle que soit l'année de leur thèse, peuvent se rencontrer, échanger et présenter leurs travaux de recherche.
Cette conférence vise à favoriser les échanges entre les (post-)doctorant·e·s en offrant l'opportunité de partager leurs travaux et de discuter de leurs projets avec leurs pairs. Qu'ils soient au début de leur parcours ou sur le point de conclure leur thèse, tou·te·s les doctorant·e·s (et les post-doctorant·e·s) sont les bienvenu·e·s pour présenter leurs travaux, bénéficier de retours constructifs et établir des liens au sein de la communauté.
Nous encourageons vivement la participation de tous les chercheurs et chercheuses du domaine ou intéressé·e·s par les statistiques pour contribuer à partager vos connaissances et participer au débat.
Le lundi 18 mars, à l'IRMAR (Campus de Beaulieu). Les détails de la journée seront donnés prochainement.
Les (post-)doctorant·e·s souhaitant présenter leurs travaux peuvent soumettre un résumé avant le lundi 4 mars dans l'onglet "Participation".
Les personnes intéressées pour assister à l'événement peuvent s'inscrire en tant que participant·e·s dans l'onglet "Inscription" avant le vendredi 15 mars.
"Notre objectif est d’étudier comment les données de comptage issues d’un projet de science citoyenne peuvent contribuer à améliorer la connaissance des mobilités d’un territoire. Nous explorerons comment une méthodologie statistique, plus particulièrement l'analyse de données fonctionnelles, peut aider à analyser les caractéristiques de ces données spatio-temporelles.
Dans les modèles de trafic, la modélisation est faite pour un unique jour censé représenter un comportement général de mobilité (jour de la semaine hors mercredi). Nous nous posons ici la question de savoir à quel point les jours ouvrables (du lundi au vendredi) représentent un ensemble homogène et tentons d'y répondre à l'aide d'une analyse en composantes principales fonctionnelle.
Il s’agit de prédire le taux de pollens dans l’air à partir de mesures photoélec
trique obtenues par le capteur développé par l’entreprise LifyAir. Ce capteur prend
40 mesures photoélectriques toutes les 10 secondes. Cependant, à cause des diffé
rents facteurs de l’environnement extérieur (vents, pluies, sables, pollution, etc.) ces
données contiennent beaucoup de bruits. Pour ce problème, nous bénéficions d’une
vérité terrain qui est obtenue à partir d’un autre capteur (beaucoup plus coûteux
et ne permettant pas l’obtention de données en temps réel, d’où l’enjeu de notre
recherche) et qui donne la concentration de chaque type de pollens dans l’air toutes
les deux heures. La première étape est donc de nettoyer les données du capteur de
LifyAir. À ces fins, j’ai eu l’idée, d’après mes lectures (surtout [ZP17]), de développer
un AutoEncoder régularisé. L’idée est de minimiser le terme suivant :
min
XLifyAir“LS
∥L ´ DpEpLqq∥
λ1∥S∥ ` λ2∥FpLq ´ H∥
où XLifyAir sont nos données photoélectrique, D et E sont les deux parties d’un
AutoEncoder, F est la fonction qui nous permet d’obtenir la concentration totale de
particules dans l’air toutes les 2 heures à partir des données photoélectriques (c’est
une méthode qui provient de la physique) et H est la concentration totale de pollens
dans l’air toutes les 2 heures obtenue à partir de la vérité terrain. Dans l’idée L ne
contiendrait que les données qui comptent véritablement des pollens.
This study aimed to develop a new statistical approach to assess the effect of chronological age on physical performance.
1740 Elite French youth rugby union players were initially recruited. Time to complete a 50m sprint, broad jump for distance and maximal aerobic speed were retained for analysis. Linear Mixed models were used to model the relationship between chronological age and physical performance with log transformations on both variables to account for the non-linearity of their relationship. Additionally, confidence intervals ranging from 10 to 90% were used to rank individual’s with respect to all performances of a same age category while accounting for the chronological age at which it was achieved. Furthermore a second approach using estimated individual effects were computed to represent an individualized expected progression curve.
The results of this study provided novel methodological insights. First the integration of a double logarithmic transformation improved the predictive capabilities of the model used in this study. Additionally, the use of confidence interval allow a better representation of individual physical performance compare to the rest of the population. Finally, individual expected progression curve could be consider to track athletes’ progress overtime.
The cheese-making process although standardized faces variability, impacting performance indicators, i.e. product quality reproducibility and economic result. To enhance performance indicators, addressing all variability sources is essential. Despite vast data collections all along the cheese-making process, the potential for its exploitation remains largely underutilized. Integrating artificial intelligence, particularly machine learning (ML), offers new perspectives through data-driven, multi-objective optimization (MOO) approach. In this study MOO was used to enhance the overall performance of a cheese manufacturing plant. ML models elucidate variability in each performance indicator, establishing complex parameter-indicator relationships. MOO addresses conflicting performance objectives simultaneously and enables compromises between indicators, proposing viable solutions. In summary, the use MOO with ML to maximize overall performance represents a breakthrough for dairy industries.
Le Fusarium est un bioagresseur du blé, connu pour ses capacités d’adaptation rapide aux changements environnementaux, dues à des variations épigénétiques. À des intervalles de temps courts, les variations épigénétiques peuvent permettre des changements phénotypiques dûs à la modification de l’expression génique, sans changement de la séquence génomique. Ainsi, les génomes et épigénomes interagissent avec l’environnement et contribuent à l’adaptation des organismes et à leurs capacités de résilience. Néanmoins, d’autres variations génétiques entrent en jeu dans les phénomènes d’adaptation, c’est pourquoi ici nous utilisons des données sur le Fusarium qui est un organisme se reproduisant de manière clonale et où l’adaptation par variation génétique est moindre. L’étude des variations d’expression est donc envisagée ici par l’étude des mécanismes épigénétiques, notamment par la variation de l’accessibilité de la chromatine qui joue un rôle majeur dans la transcription d’un gène et donc dans son expression. On obtient ces informations grâce à un séquençage MAINEseq et l’expression des gènes est obtenue par séquençage RNAseq. Une première approche statistique vise à l’apprentissage de la structure épigénomique le long du gène afin de traduire son expression à l’aide d’une grande variété de méthodes de machine learning (régression linéaire, random forest, et deep learning), ce qui a conduit à des résultats peu concluants. Partant de l'observation que le signal d'expression dans l'amorce de la partie codante du gène est à la fois bien corrélé au signal épignéomique et à l'expression complète du gène, nous proposons une nouvelle méthode d’apprentissage où les signaux de motifs épigénétiques sont utilisés pour prédire le signal d’expression, cette fois le long de la séquence nucléotidique, dans une démarche de prédiction dite function-to-function.
Fusarium head blight (FHB) poses a significant threat to wheat production and food safety. Various fungal species within the Fusarium genus are responsible for FHB and compete with each other. Understanding the ecophysiology of these species is crucial for predicting their distribution with climate change in France.
In our study, we analyzed data from an in vitro experiment involving 25 strains from five different Fusarium species, grown under various water conditions and temperatures. By studying the growth probability of these strains in different environmental conditions, we identified species with varying sensitivities to temperature and water conditions. We then developed growth kinetics models for these strains, estimating distinct biological growth parameters and their relationships with environmental factors.
Furthermore, we conducted additional experiments involving the co-culture of different strains within wells. We aimed to model the competitive dynamics within these wells using Lotka-Volterra differential equation systems, incorporating the growth parameters obtained earlier. However, preliminary results revealed a discrepancy between the experimental data and expected outcomes, prompting us to address whether the issue lies in the model , our assumptions, we have or the data itself.
This dilemma underscores a central and long-standing scientific question: when faced with discrepancies between experimental data and model predictions, should we question the validity of the model or the accuracy / quality of the data?
Déterminer si une espèce sera présente ou absente d'un écosystème à un moment donné est une question centrale en écologie, tant elle peut déterminer la bonne santé de cet écosystème, ou sa dynamique dans le temps. On propose ici de modéliser cette absence/présence par une version temporelle du modèle de régression probit multivarié. Les paramètres de ce modèle sont facilement interprétables, et fournissent des informations clés quant à la dynamique de l'écosystème étudié.
Les garanties d'existence et d'unicité du processus modélisant cette absence/présence seront étudiées, et on discutera des différentes stratégies d'estimation des paramètres du modèle. En pratique, la qualité de telles estimations est fortement impactée par le manque d'observations temporelles en écologie. C'est pourquoi une généralisation des résultats d'estimation aux données de panel sera présentée.
Enfin, on présentera à titre d'exemple des résultats sur données simulées et réelles, notamment sur la présence de micro-algues toxiques sur les côtes écossaises.
In this talk, I will first introduce what are telomeres, and the experimental design used to produce the data of single of telomerase negative yeast lineages.Such lineages display precocious abnormally long cell cycles, that occure earlier than the fatal phase of replicative senescence. Then I will present two models to predict and understand the onset of the first long cycle. Finally, I will present two aspects that distinguish early long cycles from replicative senescence.
Les modèles d'équations structurelles à variables latentes sont de plus en plus utilisés en sciences du vivant pour leur modélisation holistique incluant des hypothèses causales actionnables entre les variables observées ou latentes (Shipley, 2002). Lors d'une sélection entre divers modèles candidats, les critères d'informations classiques n'ont de résultats que dans un cadre asymptotique, et ne prennent pas en compte les variables latentes (Bollen et al., 2014). L'objectif est de développer un critère SEM-ICL, inspiré de l'ICL utilisé pour les modèles de mélange (Biernacki et al., 2010), prenant en compte les variables latentes par une approche bayésienne, adoptant une forme exacte.
Based on the increasing demand for analyzing continuously updated data sets in the context of time-to-event modeling, we propose a novel recursive approach to estimate the conditional hazard function given a set of predictors, when the duration of interest is randomly right-censored. The method is based on a simple representation of the conditional hazard function using a density and a conditional expectation which can be estimated recursively by kernel smoothing. To evaluate the performance of our estimator, we conduct numerical studies and demonstrate its practical utility using a real-world example.
La théorie des sondages cherche à déterminer des caractéristiques d’une population finie à partir d’informations partielles recueillies dans un échantillon de cette dernière. Les plans de sondages construits peuvent faire intervenir des mécanismes complexes pour améliorer la qualité des estimations ou simplement pour répondre à des contraintes techniques (stratification, échantillonnage à plusieurs degrés, correction de non-réponse, etc . . .)[1]. Ainsi, la question de la quantification des incertitudes des estimations obtenues devient difficile tout en demeurant cruciale.
Nous nous concentrerons sur le mécanisme particulier de l’équilibrage, qui consiste à tirer des échantillons respectant une information connue sur la population (par exemple, la distribution âge-sexe) [2, 3]. Une technique d’estimation de variance appelée bootstrap, simple d’utilisation, se base sur un rééchantillonnage des observations. Pour utiliser une telle approche, nous allons d’abord voir comment construire un tirage équilibré avec remise, en généralisant la méthode dite du cube [2].
[1] Fuller, W. A. (2011). Sampling statistics, volume 560. John Wiley & Sons.
[2] Deville, J.-C. and Tillé, Y. (2004). Efficient balanced sampling: the cube method. Biometrika, 91(4):893–912.
[3] Deville, J.-C. and Tillé, Y. (2005). Variance approximation under balanced sampling. Journal of statistical planning and Inference, 128(2):569–591.
Ma thèse se concentre sur un processus, appelé « birth-death-mutation-move process » permettant de modéliser la dynamique d’un système de particules qui se déplacent au fil du temps, tandis que de nouvelles particules peuvent apparaître et que certaines particules existantes peuvent disparaître. Dans ce modèle, les trajectoires peuvent être générées par n’importe quel modèle de diffusion de Markov continu, et peuvent changer de mouvement au cours de leur durée de vie. Après avoir présenté rapidement ce modèle, je m’attarderai sur ce qui constitue un des pans de ma thèse, dans lequel les trajectoires peuvent suivre trois modèles de diffusion possibles : un mouvement brownien, un mouvement dirigé (qui est souvent un mouvement brownien dirigé), et un mouvement confiné (qui peut, par exemple, être modélisé par un processus d’Ornstein-Uhlenbeck). L'objectif est de déterminer les paramètres caractérisant ces trois types de mouvements, ainsi que d'identifier les moments où une particule passe d'un régime de mouvement à un autre. Pour cela, j'utiliserai un algorithme de type Expectation-Maximization (EM) conjointement avec un modèle de Markov à états cachés.
Sparse linear models are ubiquitous in various applied mathematical fields such as high-dimensional statistics, machine learning and signal processing, among many others. Constructing such models can be done via the resolution of optimization problems of the form
\begin{equation}
\label{prob}
\tag{$\mathcal{P}$}
\textstyle\min_{\mathbf{x} \in \mathbf{R}^{n}} \ f(\mathbf{x}) + \lambda |\mathbf{x}|_0
\end{equation}
where $f(\cdot)$ is some model-dependent loss function, $\|\cdot\|_0$ is the so-called ``$\ell_0$-norm'' which promotes sparsity by counting the number of non-zero entries in its argument and $\lambda > 0$ is a tuning hyperparameter. Although the solutions of \eqref{prob} generally benefit from desirable statistical properties, this problem is NP-hard to solve in the general case and has long been considered intractable. Nonetheless, recent contributions have revived the interest in solving \eqref{prob} and several lines of research have outlined that this problem can sometimes be solved efficiently via discrete optimization methods. We propose to discuss the statistical relevance of \eqref{prob} regarding other strategies allowing to construct sparse linear models and review the recent advances made to solve this problem exactly. In particular, we will introduce some tools derived from the discrete optimization community that appear to be well-tailored to address this problem.
We introduce a new notion of regularity, called directional regularity, which is rele- vant for a wide range of applications involving multivariate functional data. We show that for anisotropic functional data, faster rates of convergence can be obtained by adapting to its directional regularity through a change of basis. An algorithm is constructed for the estimation and identification of the directional regularity for a large class of stochastic processes, made possible due to the unique replication nature of functional data. Accompanying non-asymptotic theoretical guarantees are provided. A novel simulation algorithm, which is of independent interest, is designed to evaluate the numerical accuracy of our directional regularity algorithm. Simulation results demon- strate the good finite sample properties of our estimator, which is freely available in the R package direg.