Simon Weinberger (Université Lumière Lyon 2) "Apprentissage de préférences utilisateur par données fonctionnelles temporelles"
Dans cette présentation, on s’intéresse à des développements faits pour répondre à une problématique industrielle : pour des lunettes à teinte variable, comment contrôler cette teinte tout en tenant en compte les préférences de chaque utilisateur ? On approche ce problème de trois façons différentes.
La première approche consiste à essayer de reproduire le comportement d’un utilisateur. Pour cela, on reformule le problème comme un problème de régression où la variable cible est ordinale et la covariable est une donnée fonctionnelle. On explore l’utilisation d’ondelettes ainsi qu’une pénalisation fonctionnelle, on obtient ainsi des modèles compétitifs et interprétables.
La seconde approche consiste à formuler le problème comme un problème d’apprentissage par renforcement où, selon la luminosité (états), on contrôle la teinte (action) pour que l’utilisateur n’interagisse pas souvent avec sa monture (récompense). Pour cela, on introduit une famille de politiques, dites ordinales, permettant de tenir compte de la notion d’ordre entre actions. Cette approche a été testée avec de vrais utilisateurs, dans un environnement contrôlé, et elle permet aussi d’approcher des problèmes d’apprentissage par renforcement où l’action est continue. Tenir compte de la notion d’ordre entre actions aide à converger plus rapidement que si on l’ignorait.
Finalement, on peut approcher le problème industriel comme un problème d’apprentissage par renforcement où l’action est ordinale et l’espace des états est une donnée fonctionnelle, correspondant aux dernières minutes de luminosité. On étend la mise à jour TRPO dans ce cadre fonctionnel. Ainsi, on peut traiter des problèmes dans lesquels l’espace des états est fonctionnel, comme des problèmes de contrôle, gouvernés par une équation différentielle aux dérivées partielles.