Séminaire de Probabilités commun ICJ/UMPA

Analyse du risque de forêts purement aléatoires

par Sylvain Arlot

Europe/Paris
435 (ENS Lyon)

435

ENS Lyon

Description

Les forêts aléatoires (random forests, Breiman, 2001) sont très couramment utilisées en statistique, avec de très bonnes performances pratiques, mais leur analyse théorique complète reste un problème ouvert. Des modèles simplifiés comme les forêts purement aléatoires ont alors été introduits, afin de faire un premier pas vers la compréhension théorique des forêts aléatoires de Breiman. 

En régression, on dispose alors d'une décomposition du risque quadratique comme la somme de deux termes, que l'on peut interpréter comme une erreur d'approximation (du signal par le "modèle" défini par la forêt) et une erreur d'estimation (des paramètres de ce "modèle"). Dans cet exposé, nous étudions comment chacun de ces termes dépend de la profondeur de chaque arbre et du nombre d'arbres dans la forêt. 

Nous obtenons des résultats théoriques précis pour un modèle jouet. Sous des hypothèses de régularité sur la fonction de régression, la vitesse d'apprentissage d'une grande forêt est strictement meilleure que celle d'un arbre seul, et ceci provient uniquement de ses meilleures qualités d'approximation. 

Ces résultats théoriques se généralisent à plusieurs autres types de forêts purement aléatoires. Ils sont complétés par une étude numérique des forêts "hold-out" (un type de forêt purement aléatoire proche des forêts de Breiman), mettant en évidence un comportement similaire, ce qui éclaire comment les forêts aléatoires "classiques" fonctionnent. 

Cet exposé se fonde sur un travail en collaboration avec Robin Genuer.
http://arxiv.org/abs/1407.3939v2
http://arxiv.org/abs/1604.01515