Clear Sky Science · fr
Voix des ancien·nes esclavi·es : un nouveau corpus textuel de récits par des personnes anciennement esclaves
Faire entendre des histoires longtemps réduites au silence
Pendant des générations, le quotidien des personnes esclavisées et anciennement esclavisées a souvent été relaté à travers des registres de plantations, des tableaux de recensement et la voix des propriétaires d’esclaves. Cet article présente une nouvelle manière d’écouter directement celles et ceux qui ont vécu l’esclavage : une vaste collection ouverte de récits de vie et d’entretiens en format numérique. En transformant avec soin des livres fragiles et d’anciens tapuscrits en une ressource consultable, le projet facilite grandement l’accès pour tous — des historiens aux lecteurs curieux — afin d’explorer comment les personnes décrivaient elles-mêmes leur expérience de la servitude et de la liberté.

Rassembler de nombreuses voix en un seul lieu
Le cœur du projet est un corpus textuel intitulé « Voices of the Formerly Enslaved ». Il réunit deux types principaux de sources venues des États-Unis et de certaines parties des Caraïbes. Le premier comprend près de deux cents autobiographies à la première personne rédigées par des personnes qui avaient été esclavisées, pour la plupart publiées à l’origine au XIXe siècle et conservées dans la collection Documenting the American South. Le second comprend plus de deux mille entretiens menés dans les années 1930 par le Federal Writers’ Project, au cours desquels des hommes et des femmes âgés revenaient sur leur enfance en esclavage. Tous ces textes sont dans le domaine public, et l’équipe a obtenu les autorisations nécessaires pour réutiliser les versions numérisées lorsque cela a été requis.
Des anciennes pages à des données fiables
Transformer des pages historiques en texte numérique fiable est loin d’être simple. Les premières opérations de numérisation ont introduit de nombreuses erreurs : des lettres lues comme des chiffres, des mots déréglés dans l’ordre, et des normalisations orthographiques inconsistantes. Les chercheur·e·s ont donc repassé le matériel via un outil moderne de reconnaissance optique de caractères et comparé plusieurs versions, y compris celles de la Library of Congress et de Project Gutenberg. Ils ont mesuré la fréquence des lectures erronées au niveau des caractères et des mots entiers, puis utilisé des transcriptions « gold » soigneusement vérifiées pour affiner le procédé. Cela leur a permis d’identifier quelles approches produisaient les versions les plus précises et où des corrections manuelles restaient nécessaires.

Ajouter des couches de sens
Une fois le texte de base en bon état, l’équipe l’a enrichi de nombreuses couches d’information supplémentaires. À l’aide d’un pipeline de traitement du langage, ils ont marqué les frontières de phrases, les classes de mots, les formes du dictionnaire et les relations grammaticales. Ils ont aussi commencé à identifier les noms de personnes et de lieux et ont créé des métadonnées détaillées, comme la date et le lieu d’enregistrement d’un entretien, le sexe du locuteur principal, et si une page reflétait l’anglais imprimé standard ou une tentative de rendre le vernaculaire oral. Une attention particulière a été portée à la manière dont les intervieweurs ont transcrit la parole afro-américaine de l’époque, qui apparaît souvent sous des graphies non standard comme « gwine » pour « going » et peut être difficile à analyser par des ordinateurs.
Explorer la langue et l’expérience
Ces couches techniques ouvrent de nouvelles perspectives sur l’histoire et la langue. Avec des millions de mots maintenant organisés et annotés, les chercheur·e·s peuvent effectuer des recherches à grande échelle pour repérer des motifs : comment les gens parlaient du travail, de la famille, des punitions ou de la liberté, et comment ces motifs évoluaient dans le temps ou selon les lieux. Les premières expériences utilisant des modèles d’intégration lexicale — des outils qui regroupent les mots par similarité de sens — ont déjà révélé des distinctions subtiles. Par exemple, dans les récits à la première personne de personnes anciennement esclavisées, des termes comme « man » et « person » tendent à désigner des personnes indépendamment de leur origine, tandis que dans d’autres textes contemporains « man » est plus étroitement lié à des sujets blancs et « person » aux Afro‑Américains. De tels résultats suggèrent que le corpus peut éclairer la manière dont la langue codifiait la race et le statut.
Une ressource vivante pour un patrimoine partagé
Le principal résultat de l’article n’est pas une seule affirmation historique mais une ressource de recherche durable et partagée ouvertement. La version 0.1 du corpus est déjà disponible, accompagnée de documentation, d’analyses d’exemple et de code pour reproduire ou étendre le travail. Les futures versions ajouteront davantage d’entretiens, des informations géographiques plus riches, des analyses thématiques et de sentiment, ainsi que des outils supplémentaires d’exploration. Pour un lecteur non spécialiste, le message essentiel est que des voix longtemps cantonnées à des archives dispersées sont désormais rassemblées, nettoyées et amplifiées avec soin. Ce corpus numérique préserve les paroles des personnes anciennement esclavisées comme partie de notre patrimoine culturel commun et facilite grandement l’accès pour les universitaires, les étudiant·e·s et le grand public afin d’apprendre de ce qu’elles ont choisi de dire sur leur propre vie.
Citation: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x
Mots-clés: récits d’esclaves, humanités numériques, linguistique historique, histoire afro-américaine, corpus textuel