Séance 4 : "L’analyse textuelle en R avec R.temis"
Jeudi 6 juin 2019 : salle BS1_05 (54 bd Raspail) 75006 Paris de 9h30 à 12h
Milan Bouchet-Valat (Ined), Antoine Chollet (Ensai) et Bénédicte Garnier (Ined)
R.temis est un nouveau paquet R dédié à l’analyse textuelle, qui prend la suite de l’interface graphique RcmdrPlugin.temis (R.TeMiS). Contrairement à son prédécesseur, R.temis fournit des fonctions à utiliser dans des scripts (par exemple dans RStudio). Il s’adresse donc aux utilisateurs déjà familiers avec R, tout en se voulant accessible. Le principe du paquet est de faciliter les étapes essentielles de l’analyse textuelle (importation, traitement et analyses) en s’appuyant au maximum sur les paquets existants (tm, FactoMineR, explor, igraph...) pour permettre aux utilisateurs de réaliser les analyses dont ils ont besoin sans les enfermer dans une méthode particulière.
R.temis prend en charge les méthodes suivantes :
- importation de corpus au format .csv, .txt, Alceste, Factiva, Europresse et LexisNexis
- suppression des mots vides, lemmatisation automatique modifiable manuellement
- découpage des textes en paragraphes
- construction de sous-corpus à partir de termes
- bilan lexical, spécificités, co-occurrences, concordances
- nuage de mots
- analyse des correspondances sur tableau lexical entier ou agrégé
- classification
- graphes de mots
Après une présentation des principes du logiciel et des principales méthodes, nous proposerons une illustration pratique à partir d’un extrait du corpus EuroBroadMap, constitué de réponses d’étudiants à la question : Quels sont les mots que vous associez le plus à l’« Europe » ? Choisissez 5 mots au maximum