Jeudi 26 janvier 2017

Séance 2 : "Traitement de données historiques avec R"

Jeudi 26 janvier de 9 h à 12 h à l’EHESS (salle du conseil B, R-1, bât. Le France, 190-198 av de France 75013 Paris)

Arnaud Bringé (Ined – service méthodes statistiques)

La présentation sera effectuée à partir de la juxtaposition de plusieurs sources de données historiques du 18ème siècle. Elle a pour cadre la ville de Martigues, victime de la dernière épidémie de peste en France (1720). Les données proviennent de listes nominatives issues de recensements fiscaux et de registres paroissiaux (Baptêmes-Mariages-Sépultures).

Ce type de sources est notamment caractérisé par la présence de nombreuses données textuelles, qui permettent notamment d’identifier les individus et la construction de généalogies. Ces données textuelles existent aussi très fréquemment pour caractériser des lieux (naissance, mariage, décès, origine) ou des professions. En préalable à tout traitement ou à tout regroupement, elles nécessitent d’être harmonisées. Nous montrerons dans un premier temps, quelles fonctions R utiliser afin d’homogénéiser au maximum ces données textuelles. Nous décrirons dans cette première partie l’utilisation des packages stringr pour le traitement des chaines de caractères et stringdist pour le calcul de distances entre chaînes.

La juxtaposition de plusieurs sources nécessite une homogénéisation des informations, tant au niveau des variables que des observations considérées. Nous décrirons dans cette deuxième partie l’utilisation du package sqldf.

Enfin, l’analyse de ces sources nominatives a conduit au calcul de statistiques à un niveau agrégé (famille, maison). Nous décrirons dans cette dernière partie l’utilisation des packages plyr et dplyr.

Le nombre maximum de places étant atteint, les inscriptions sont closes