Clear Sky Science · it

Voci di ex schiavi: un nuovo corpus di testi di narrazioni di persone precedentemente schiavizzate

· Torna all'indice

Ascoltare storie a lungo silenziate

Per generazioni, la vita quotidiana delle persone schiavizzate e degli ex schiavi è stata spesso raccontata tramite registri delle piantagioni, tabelle del censimento e le voci dei proprietari di schiavi. Questo articolo presenta un nuovo modo di ascoltare direttamente chi ha vissuto la schiavitù: una vasta collezione di storie di vita e interviste in forma digitale e liberamente accessibile. Trasformando con cura libri fragili e vecchie dattiloscrizioni in una risorsa ricercabile, il progetto rende molto più semplice per chiunque — dagli storici ai lettori curiosi — esplorare come le persone hanno descritto le proprie esperienze di schiavitù e libertà.

Figure 1
Figura 1.

Riunire molte voci in un unico luogo

Il cuore del progetto è un corpus testuale chiamato “Voci degli ex schiavizzati”. Riunisce due principali tipi di fonti dagli Stati Uniti e da parti dei Caraibi. Il primo consiste in quasi duecento autobiografie in prima persona di persone che erano state schiavizzate, per lo più pubblicate originariamente nel XIX secolo e conservate nella collezione Documenting the American South. Il secondo consiste di oltre duemila interviste condotte negli anni Trenta dal Federal Writers’ Project, in cui uomini e donne anziani ripercorrevano la propria infanzia in schiavitù. Tutti questi testi sono di pubblico dominio e il team ha ottenuto il permesso di riutilizzare le versioni digitalizzate quando necessario.

Dalle vecchie pagine ai dati intelligenti

Trasformare pagine storiche in testo digitale affidabile è tutt’altro che semplice. I precedenti tentativi di digitalizzazione hanno introdotto molti errori: lettere lette come numeri, ordine delle parole sconvolto e correzioni ortografiche incoerenti. I ricercatori hanno quindi rieseguito il materiale con uno strumento moderno di riconoscimento ottico dei caratteri e confrontato più versioni, incluse quelle della Library of Congress e di Project Gutenberg. Hanno misurato quanto spesso singoli caratteri e intere parole venivano letti erroneamente, poi hanno utilizzato trascrizioni “gold” accuratamente verificate per perfezionare il processo. Questo ha permesso di identificare quali approcci producevano le versioni più accurate e dove era ancora necessario un ulteriore intervento manuale.

Figure 2
Figura 2.

Aggiungere strati di significato

Una volta che il testo di base è stato messo in buona forma, il team lo ha arricchito con molti strati informativi aggiuntivi. Utilizzando una pipeline di elaborazione del linguaggio, hanno segnato i confini delle frasi, i tipi di parola, le forme lessicali e le relazioni grammaticali. Hanno inoltre iniziato a identificare nomi di persone e luoghi e hanno creato metadati dettagliati, come quando e dove è stata registrata un’intervista, il genere del parlante principale e se una pagina rifletteva l’inglese stampato standard o un tentativo di catturare il vernacolo parlato. È stata prestata particolare attenzione al modo in cui gli intervistatori trascrivevano la parlata afroamericana dell’epoca, che spesso appare con ortografie non standard come “gwine” per “going” e può risultare difficile da analizzare per i computer.

Esplorare linguaggio ed esperienza

Questi strati tecnici aprono nuove finestre sia sulla storia sia sulla lingua. Con milioni di parole ora organizzate e annotate, i ricercatori possono condurre ricerche su larga scala per individuare schemi: come la gente parlava del lavoro, della famiglia, delle punizioni o della libertà, e come tali schemi cambiassero nel tempo o da un luogo all’altro. Esperimenti iniziali che utilizzano modelli di word-embedding — strumenti che raggruppano parole per similarità di significato — hanno già rivelato distinzioni sottili. Per esempio, nelle narrazioni in prima persona di ex schiavizzati, termini come “man” e “person” tendono a riferirsi a persone indipendentemente dallo sfondo, mentre in altri testi contemporanei “man” è più strettamente legato a soggetti bianchi e “person” agli afroamericani. Scoperte di questo tipo suggeriscono che il corpus può far luce su come la lingua codificava razza e status.

Una risorsa vivente per un patrimonio condiviso

Il risultato principale dell’articolo non è un singolo enunciato storico, ma una risorsa di ricerca duratura e condivisa in modo aperto. La versione 0.1 del corpus è già disponibile, completa di documentazione, analisi esemplificative e codice per riprodurre o estendere il lavoro. Le future release aggiungeranno più interviste, informazioni geografiche più ricche, analisi tematiche e del sentiment e strumenti aggiuntivi per l’esplorazione. Per il lettore non specialistico, il messaggio chiave è che voci da lungo tempo confinate in archivi sparsi vengono ora raccolte, ripulite e amplificate con cura. Questo corpus digitale preserva le parole delle persone un tempo schiavizzate come parte del nostro patrimonio culturale comune e facilita notevolmente a studiosi, studenti e al pubblico l’apprendimento da ciò che hanno scelto di raccontare sulle proprie vite.

Citazione: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x

Parole chiave: narrazioni di schiavi, umanesimo digitale, linguistica storica, storia afroamericana, corpus testuale