Statistique - Probabilités - Optimisation et Contrôle

Différentiation implicite pour la sélection des hyperparamètres en apprentissage convexe et non-lisse

par Quentin Klopfenstein (IMB, Université de Bourgogne)

Europe/Paris
René Baire (IMB)

René Baire

IMB

Description

Trouver la valeur optimale d’hyperparamètres pour un modèle d’apprentissage automatique peut être écrit comme un problème d’optimisation à deux niveaux. Ce problème d’optimisation est très souvent résolu en utilisant des techniques de grid-search, random-search ou de l’optimisation bayésienne. Toutes ces méthodes peuvent être vues comme de l’optimisation à l’ordre zéro (sans l’information du gradient) mais sont difficilement utilisables lorsque le nombre des hyperparamètres à sélectionner devient grand. Des méthodes d’optimisation du premier ordre peuvent surmonter ces difficultés : l’étape clés étant le calcul des hypergradients, i.e. des gradients en fonction des hyperparamètres. Ces méthodes ont été très étudiées pour des modèles basés sur des problèmes d’optimisation lisses, cependant la littérature concernant les problèmes d’optimisation non lisses est plus rare.

Dans ce travail, nous proposons différentes méthodes pour calculer des hypergradients lorsque le problème d’optimisation sous-jacent est convexe mais non lisse.

Nous appliquons ensuite ces résultats pour la sélection des hyperparamètres sur des modèles de régression et de classification. Nous obtenons ainsi des gains significatifs en rapidité de calcul, en particulier lorsque le nombre d’hyperparamètres est grand.