jeudi 23 mars 2017
Séance 3 : "Les arbres qui cachent les forêts ? Arbres de régression et forêts aléatoires comme alternatives aux modèles de régressions standards en sciences sociales"
Jeudi 26 janvier de 9 h à 12 h à l’EHESS salle Jean-Pierre Vernant, 8e étage, bât. Le France, 190-198 av de France 75013 Paris
Nicolas Robette ( CREST-LSQ ENSAE, Université Paris Saclay)
Parmi les innombrables méthodes d’apprentissage automatique, les arbres de décision se sont imposés depuis les années 1980 parmi les principaux outils pour résoudre les problèmes de classification et de régression. Ils ont depuis été perfectionnés et dépassés, avec notamment les algorithmes ensemblistes (bagging, forêts aléatoires, etc.). Dans le contexte des sciences sociales, cette boîte à outils semble à même de fournir une alternative crédible aux modèles de régression standards : ces algorithmes ne reposent pas sur des hypothèses contraignantes concernant les données (normalité, absence de multicolinéarité, etc.) et prend d’emblée et simplement en compte les interactions entre variables candidates à l’explication. De plus, leur mise en œuvre est maintenant largement facilitée par l’existence de packages R spécifiques