Séminaire de Probabilités commun ICJ/UMPA

Coordination sans communication en bandits multijoueurs

par Thomas Budzinski

Europe/Paris
A préciser

A préciser

Description

Les bandits stochastiques multi-bras multi-joueurs sont un modèle où plusieurs joueurs font à chaque étape un choix parmi plusieurs options, et cherchent simultanément à se fixer sur les meilleures options et à éviter les collisions entre joueurs. En se concentrant sur le plus petit cas non trivial (trois bras et deux joueurs), on étudiera le regret optimal pour ce modèle dans le cas i.i.d.. On verra qu'il est le même que dans le modèle à un joueur à un facteur logarithmique près. Travaux en commun avec Sébastien Bubeck et Mark Sellke.