Rencontres Statistiques Lyonnaises

Classification binaire dans des régions extrêmes

par Anne Sabourin (LTCI, Telecom ParisTech)

Europe/Paris
112 (Bat. Braconnier)

112

Bat. Braconnier

Description

L’exposé est prévu en deux parties :  une première au cours de laquelle les liens entre apprentissage statistique et extrêmes seront discutés, c.à.d. comment des résultats sur les extrêmes peuvent être obtenus en manipulant des bornes de concentration à la Vapnik. Les garanties que cela peut fournir sur des problèmes d'estimation de support ou de classification seront aussi abordées. Dans une seconde partie, le travail joint avec Hamid Jalalzai et Stephan Clémençon sera présenté, dont voici un résumé : In a wide variety of applications involving anomaly detection (e.g. buzzes in social network data, frauds, system failures), extreme observations play a key role  because anomalies often correspond to large observations. The key issue is then to distinguish between large observation from the normal class and large observations from the anomaly class. This task can thus be formulated as a binary classification problem in extreme regions.  However, extreme observations generally contribute in a negligible manner to the (empirical) error, simply because of their rarity. As a consequence, empirical risk minimizers generally perform very poorly in extreme regions. This paper develops a general framework for classification of extreme values.  Precisely, under non-parametric heavy-tail assumptions, we propose a natural and asymptotic notion of risk accounting for predictive performance in extreme regions.   We prove  that minimizers of an empirical version of   this dedicated risk lead to classification rules with good generalization capacity, by means of maximal deviation inequalities in low probability regions. Numerical experiments illustrate the relevance of the approach developed.On considère le problème d'estimer la position et l'intensité de sources ponctuelles réparties en $L$ groupes, ou "spike trains" et dont chacun est convolué par une "point spread function"  $g(\dots/\mu_l)$, $l=1,\ldot,L$. Dans de multiples applications, seule la somme de ces spike trains convolués, appelée "mélange", est accessible à l'observation. Ce problème est une géneralisation du problème de super-résolution, qui correspond au cas $L = 1$, et qui a été l'objet d'une récente et intense activité de recherche, sous l'impulsion de Azais, de Castro, Gamboa, Cand\`es, Fernandes-Granda, Recht, Schiebinger, Bandari, Moitra, etc. Nous démontrons dans ce travail qu'en choisissant des échantillons de la transformée de Fourier du mélange de manière adéquate, l'application successive d'un algorithme proposé récemment par Moitra permet d'estimer la position des sources dans chaque groupe avec des garanties non asymptotiques précises. Ces résultats seront appuyés par des illustrations numériques. » Voir https://arxiv.org/pdf/1807.02862.pdf