Clear Sky Science · sv
Röster från tidigare förslavade: Ett nytt textkorpus med berättelser av tidigare förslavade personer
Att höra länge tystade berättelser
I generationer har vardagslivet för människor som varit förslavade ofta skildrats genom plantageregister, folkräkningstabeller och slavägares röster. Denna artikel presenterar ett nytt sätt att lyssna direkt till dem som levde genom slaveriet: en stor, öppet tillgänglig samling livsberättelser och intervjuer i digital form. Genom att omsorgsfullt omvandla sköra böcker och gamla manuskript till en sökbar resurs gör projektet det mycket lättare för vem som helst — från historiker till nyfikna läsare — att utforska hur människor beskrev sina egna erfarenheter av tvång och frihet.

Samla många röster på ett ställe
Projektets kärna är ett textkorpus kallat ”Voices of the Formerly Enslaved.” Det sammanför två huvudtyper av källor från USA och delar av Karibien. Den första består av nästan tvåhundra självbiografier i första person av personer som varit förslavade, de flesta ursprungligen publicerade på 1800‑talet och bevarade i Documenting the American South‑samlingen. Den andra utgörs av mer än tvåtusen intervjuer genomförda på 1930‑talet av Federal Writers’ Project, där äldre män och kvinnor såg tillbaka på sin barndom i slaveri. Alla dessa texter är i public domain, och teamet har säkrat tillstånd att återanvända digitaliserade versioner där det behövts.
Från gamla sidor till smart data
Att omvandla historiska sidor till tillförlitlig digital text är långt ifrån enkelt. Tidigare digitaliseringsinsatser införde många misstag: bokstäver som lästes som siffror, ihopblandad ordföljd och inkonsekventa korrigeringar av stavning. Forskarna körde därför materialet igenom ett modernt optiskt teckenigenkänningsverktyg och jämförde flera versioner, inklusive de från Library of Congress och Project Gutenberg. De mätte hur ofta tecken och hela ord lästes fel och använde noggrant kontrollerade ”guld”-transkriptioner för att finslipa processen. Det gjorde det möjligt att identifiera vilka tillvägagångssätt som gav de mest korrekta versionerna och var ytterligare manuella korrigeringar fortfarande krävdes.

Lägga till betydelselager
När den grundläggande texten väl var i gott skick berikade teamet den med många extra informationslager. Med en språkbehandlingspipeline markerade de meningsgränser, ordklasser, grundformer och grammatiska relationer. De började också identifiera person‑ och platsnamn och skapade detaljerad metadata, såsom när och var en intervju spelades in, huvudtalarnas kön och huruvida en sida speglade tryckt standardenglish eller ett försök att fånga talad allmängiltig variant. Särskild uppmärksamhet ägnades åt hur intervjuare skrev ner afroamerikanskt tal från tiden, vilket ofta framträder i icke‑standardstavningar som ”gwine” för ”going” och kan vara svårt för datorer att analysera.
Utforska språk och erfarenhet
Dessa tekniska lager öppnar nya fönster mot både historia och språk. Med miljontals ord nu organiserade och annoterade kan forskare göra storskaliga sökningar efter mönster: hur människor talade om arbete, familj, bestraffning eller frihet, och hur dessa mönster förändrades över tid eller mellan platser. Tidiga experiment med word‑embedding‑modeller — verktyg som klustrar ord efter liknande betydelser — har redan avslöjat subtila skillnader. Till exempel tenderar begrepp som ”man” och ”person” i självbiografiska berättelser av tidigare förslavade att syfta på människor oberoende av bakgrund, medan i annan samtida text är ”man” mer kopplat till vita subjekt och ”person” till afroamerikaner. Sådana fynd tyder på att korpuset kan kasta ljus över hur språket kodade ras och status.
En levande resurs för gemensamt arv
Artikelns huvudsakliga resultat är inte ett enskilt historiskt påstående utan en hållbar, öppet delad forskningsresurs. Version 0.1 av korpuset är redan tillgänglig, komplett med dokumentation, exempelanalyser och kod för att reproducera eller utöka arbetet. Framtida utgåvor kommer att lägga till fler intervjuer, rikare geografisk information, ämnes‑ och sentimentsanalyser samt ytterligare verktyg för utforskning. För en lekmannaläsare är huvudbudskapet att röster som länge varit begränsade till utspridda arkiv nu noggrant samlas, rengörs och förstärks. Detta digitala korpus bevarar orden från tidigare förslavade som en del av vårt gemensamma kulturarv och gör det mycket lättare för forskare, studenter och allmänheten att lära av vad de själva valde att säga om sina liv.
Citering: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x
Nyckelord: slavberättelser, digitala humaniora, historisk lingvistik, afroamerikansk historia, textkorpus