Séminaire de Statistique et Optimisation

Methodes pour la généralisation et la robustesse en apprentissage par renforcement

par David Bertoin (IRT Saint-Exupéry)

Europe/Paris
Salle GMM 13 (INSA, bâtiment 12, rez-de-chaussée)

Salle GMM 13

INSA, bâtiment 12, rez-de-chaussée

Description

L'apprentissage par renforcement (RL) est un paradigme d'apprentissage automatique où un agent apprend à prendre des décisions optimales à travers ses interactions avec un environnement. Bien que les approches de RL profond aient démontré des performances remarquables dans divers domaines, elles souffrent souvent d'un manque de généralisation, tendant à mémoriser des trajectoires spécifiques plutôt qu'à développer des représentations robustes et généralisables. Cette limitation constitue un obstacle majeur à leur déploiement dans des applications réelles.

Dans cet exposé, je présenterai trois contributions méthodologiques visant à améliorer la robustesse des agents RL face à différentes formes de variations environnementales. Premièrement, j'introduirai une approche innovante augmentant la diversité des représentations dans l'espace latent des politiques neuronales, permettant ainsi de réduire leur sensibilité aux corrélations trompeuses entre caractéristiques visuelles et récompenses. Deuxièmement, je proposerai une méthode renforçant la robustesse des agents face à des éléments visuels distracteurs non rencontrés durant l'apprentissage, tels que des arrière-plans variables. Enfin, je présenterai un framework général, compatible avec les algorithmes RL standards, permettant d'améliorer la robustesse aux modifications des dynamiques environnementales tout en préservant les performances dans les conditions nominales d'entraînement.

Reférences:

  • Local Feature Swapping for Generalization in Reinforcement Learning, David Bertoi, Emmanuel Rachelson (ICLR22)
  • Look where you look! Saliency-guided Q-networks for visual RL tasks,  David Bertoin, Adil Zouitine, Mehdi Zouitine, Emmanuel Rachelson (Neurips 2022)
  • Time-Constrained Robust MDP, Adil Zouitine, David Bertoin, Pierre Clavier, Matthieu Geist, Emmanuel Rachelson (Neurips 2024)