Séminaire de Probabilités commun ICJ/UMPA

Minimisation du regret pour des bandits non-paramétriques grâce à la méthode de la vraisemblance empirique

Name: Minimisation du regret pour des bandits non-paramétriques grâce à la méthode de la vraisemblance empirique
Start: 2018-04-26T14:30:00+02:00
End: 2018-04-26T15:30:00+02:00
Location: UMPA

par Aurélien Garivier

jeudi 26 avr. 2018, 14:30 → 15:30 Europe/Paris

UMPA

Description

Un agent doit choisir à chaque instant parmi K options produisant chacune une variable aléatoire de distribution inconnue. Son but est de maximiser la somme des variables obtenues. Comment doit-il s’y prendre ? Pour le cas où les variables sont seulement supposées bornées, nous présentons une solution asymptotiquement optimale basée sur la construction de bornes supérieures de confiance par la méthode de la vraisemblance empirique.

de la même série

1 2 3 4 5 6 7 8 9 10 12 13

Choisissez le fuseau horaire

Minimisation du regret pour des bandits non-paramétriques grâce à la méthode de la vraisemblance empirique

par Aurélien Garivier

UMPA