Clear Sky Science · nl

Stemmen van voormalig tot slaaf gemaakten: Een nieuw tekstcorpus van verhalen door voormalig tot slaaf gemaakte personen

2026-04-30 · Terug naar het overzicht

Lang verzwegen verhalen hoorbaar maken

Generaties lang zijn het alledaagse leven van tot slaaf gemaakte en voormalig tot slaaf gemaakte mensen vaak verteld via plantagedocumenten, volkstellingstabellen en de stemmen van slavenhouders. Dit artikel introduceert een nieuwe manier om rechtstreeks te luisteren naar degenen die slavernij hebben meegemaakt: een grote, openlijk beschikbare verzameling levensverhalen en interviews in digitale vorm. Door kwetsbare boeken en oude typoscripten zorgvuldig om te zetten in een doorzoekbare bron, maakt het project het voor iedereen — van historici tot nieuwsgierige lezers — veel eenvoudiger om te onderzoeken hoe mensen hun eigen ervaringen van slavernij en vrijheid beschrijven.

Vele stemmen op één plek bijeenbrengen

De kern van het project is een tekstcorpus genaamd “Voices of the Formerly Enslaved.” Het brengt twee belangrijke soorten bronnen samen uit de Verenigde Staten en delen van het Caribisch gebied. De eerste bestaat uit bijna tweehonderd autobiografieën in de ik-vorm van mensen die tot slaaf waren gemaakt, de meeste oorspronkelijk gepubliceerd in de 1800s en bewaard in de Documenting the American South-collectie. De tweede bestaat uit meer dan tweeduizend interviews die in de jaren 1930 werden afgenomen door het Federal Writers’ Project, waarin oudere mannen en vrouwen terugkeken op hun jeugd in slavernij. Al deze teksten zijn publiek domein, en het team heeft waar nodig toestemming verkregen om de gedigitaliseerde versies opnieuw te gebruiken.

Van oude pagina’s naar slimme data

Het omzetten van historische pagina’s in betrouwbare digitale tekst is allesbehalve eenvoudig. Eerdere digitaliseringspogingen introduceerden veel fouten: letters die als cijfers werden gelezen, verwarde woordvolgorde en inconsistente correcties van spelling. De onderzoekers hebben het materiaal daarom opnieuw verwerkt met een moderne optical character recognition-tool en verschillende versies vergeleken, waaronder die van de Library of Congress en Project Gutenberg. Ze maten hoe vaak karakters en hele woorden verkeerd werden gelezen en gebruikten zorgvuldig gecontroleerde “gouden” transcripties om het proces bij te stellen. Dit stelde hen in staat te bepalen welke benaderingen de meest nauwkeurige versies opleverden en waar nog handmatige correctie nodig was.

Extra betekenislagen toevoegen

Zodra de basistekst in goede staat was, verrijkte het team deze met vele extra lagen informatie. Met behulp van een taalverwerkingspipeline markeerden ze zinsgrenzen, woordsoorten, lemma’s en grammaticale relaties. Ze begonnen ook persoons- en plaatsnamen te identificeren en creëerden gedetailleerde metadata, zoals wanneer en waar een interview werd opgenomen, het geslacht van de hoofdspreker en of een pagina gedrukt standaardengels weerspiegelde of een poging om gesproken volkstaal vast te leggen. Speciale aandacht ging uit naar de manier waarop interviewers de Afro-Amerikaanse spreektaal van die tijd noteerden, die vaak verschijnt in niet-standaard spellingen zoals “gwine” voor “going” en moeilijk door computers te analyseren kan zijn.

Taal en ervaring verkennen

Deze technische lagen openen nieuwe vensters op zowel geschiedenis als taal. Met miljoenen woorden die nu georganiseerd en geannoteerd zijn, kunnen onderzoekers grootschalige zoektochten uitvoeren naar patronen: hoe mensen spraken over werk, familie, straf of vrijheid, en hoe die patronen in de loop van de tijd of per plaats veranderden. Vroege experimenten met woord-embeddingmodellen — hulpmiddelen die woorden clusteren op basis van vergelijkbare betekenissen — hebben al subtiele onderscheidingen blootgelegd. Bijvoorbeeld: in autobiografische teksten van voormalig tot slaaf gemaakten verwijzen termen als “man” en “person” vaak naar mensen ongeacht hun achtergrond, terwijl in andere hedendaagse teksten “man” vaker verbonden is met witte onderwerpen en “person” met Afro-Amerikanen. Dergelijke bevindingen suggereren dat het corpus licht kan werpen op hoe taal ras en status codeerde.

Een levende bron voor gedeeld erfgoed

De belangrijkste uitkomst van het artikel is geen enkele historische bewering, maar een duurzaam, open gedeeld onderzoeksinstrument. Versie 0.1 van het corpus is al beschikbaar, compleet met documentatie, voorbeeldanalyses en code om het werk te reproduceren of uit te breiden. Toekomstige releases zullen meer interviews toevoegen, rijkere geografische informatie, onderwerp- en sentimentanalyses en extra verkenningstools. Voor de niet-specialistische lezer is de kernboodschap dat stemmen die lang verspreid lagen over archieven nu zorgvuldig worden verzameld, opgeschoond en versterkt. Dit digitale corpus bewaart de woorden van voormalig tot slaaf gemaakte mensen als onderdeel van ons gemeenschappelijk cultureel erfgoed en maakt het veel eenvoudiger voor wetenschappers, studenten en het publiek om te leren van wat zij kozen te zeggen over hun eigen leven.

Bronvermelding: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x

Trefwoorden: slaafverhalen, digitale geesteswetenschappen, historische taalkunde, Afro-Amerikaanse geschiedenis, tekstcorpus