L'apprentissage par renforcement (RL) est un paradigme d'apprentissage automatique où un agent apprend à prendre des décisions optimales à travers ses interactions avec un environnement. Bien que les approches de RL profond aient démontré des performances remarquables dans divers domaines, elles souffrent souvent d'un manque de généralisation, tendant à mémoriser des trajectoires spécifiques plutôt qu'à développer des représentations robustes et généralisables. Cette limitation constitue un obstacle majeur à leur déploiement dans des applications réelles.
Dans cet exposé, je présenterai trois contributions méthodologiques visant à améliorer la robustesse des agents RL face à différentes formes de variations environnementales. Premièrement, j'introduirai une approche innovante augmentant la diversité des représentations dans l'espace latent des politiques neuronales, permettant ainsi de réduire leur sensibilité aux corrélations trompeuses entre caractéristiques visuelles et récompenses. Deuxièmement, je proposerai une méthode renforçant la robustesse des agents face à des éléments visuels distracteurs non rencontrés durant l'apprentissage, tels que des arrière-plans variables. Enfin, je présenterai un framework général, compatible avec les algorithmes RL standards, permettant d'améliorer la robustesse aux modifications des dynamiques environnementales tout en préservant les performances dans les conditions nominales d'entraînement.
Reférences: