Probabilités et statistiques
Quelques aspects mathématiques de l'analyse des Transformers
par
→
Europe/Paris
Salle de conférence (LJAD)
Salle de conférence
LJAD
Description
Je présenterai un travail conjoint avec Borjan Geshkovski, Yury
Polyanskiy et Philippe Rigollet dans lequel nous avons utilisé des
outils d'équations différentielles et d'EDP pour étudier un système de
particules en interaction provenant de réseaux de neurones très
performants appelés Transformers. Je démontrerai la formation de
clusters de particules quand la profondeur tend vers l'infini.
J'expliquerai ensuite comment des outils de théorie du contrôle
géométrique permettent d'expliquer en partie la grande "expressivité" de
ces réseaux de neurones (ce dernier travail est une collaboration avec
Andrei Agrachev).