Orateur
Description
Nous étudions la convergence de la dynamique d'entraînement des réseaux neuronaux résiduels (ResNets) vers leur limite conjointe de profondeur et de largeur infinies. Nous nous concentrons sur des ResNets composés de blocs perceptrons à deux couches, dont la structure est déterminée par la profondeur L, la largeur cachée M et la dimension des paramètres D.
Nous montrons qu'après un nombre borné d'étapes d'entraînement, l'erreur entre le ResNet de taille finie et sa limite de taille infinie est de l'ordre de O( 1/L + \sqrt{D/LM} + 1/\sqrt{D} ) et des expériences numériques suggèrent que cette borne est optimale durant la phase initiale de l'entraînement. D'un point de vue probabiliste, la limite
correspond à une limite de champ moyen sur les coordonnées des paramètres, où certaines interactions évoluent en 1/\sqrt{D}, contrairement au cadre classique en
1/D.
Notre analyse constitue une instance rigoureuse et quantitative de méthodes issues de la physique statistique (Dynamical Mean Field Theory, DMFT) ; elle combine des arguments de propagation du chaos avec la méthode de la cavité à un niveau fonctionnel.