Séminaire de Probabilités commun ICJ/UMPA

Séminaire reporté -- titre : Analyse du risque de forêts purement aléatoires

par Sylvain Arlot

Europe/Paris
435 (ENS)

435

ENS

Description
Les forêts aléatoires (random forests, Breiman, 2001) sont très couramment utilisées en statistique, avec de très bonnes performances pratiques, mais leur analyse théorique complète reste un problème ouvert. 
Des modèles simplifiés comme les forêts purement aléatoires ont alors été introduits, afin de faire un premier pas vers la compréhension théorique des forêts aléatoires de Breiman. On dispose alors d'une décomposition du risque comme la somme de deux termes, que l'on peut interpréter comme une erreur d'approximation (du signal par le "modèle" défini par la forêt) et une erreur d'estimation (des paramètres de ce "modèle"). Robin Genuer (2010) a étudié la diminution de l'erreur d'estimation lorsque la taille de la forêt augmente.
Sous des hypothèses de régularité sur la fonction de régression, nous verrons que l'erreur d'approximation peut être significativement plus petite avec une forêt infinie qu'avec un arbre seul, ce qui se traduit par une vitesse d'apprentissage plus rapide. 

Cet exposé se fonde sur un travail en collaboration avec Robin Genuer.
http://arxiv.org/abs/1407.3939
http://arxiv.org/abs/1604.01515