Clear Sky Science · de

Stimmen ehemals Versklavter: Ein neuer Textkorpus mit Erzählungen ehemals Versklavter

· Zurück zur Übersicht

Lang zum Schweigen gebrachte Geschichten hören

Über Generationen hinweg wurden die Alltagsleben versklavter und ehemals versklavter Menschen oft durch Plantagenakten, Volkszählungslisten und die Stimmen von Sklavenhalterinnen und Sklavenhaltern erzählt. Dieser Artikel stellt eine neue Möglichkeit vor, direkt denen zuzuhören, die die Sklaverei erlebt haben: eine große, frei zugängliche Sammlung von Lebensgeschichten und Interviews in digitaler Form. Indem zerbrechliche Bücher und alte Typoskripte sorgfältig in eine durchsuchbare Ressource überführt werden, erleichtert das Projekt es jedem – von Historikern bis zu neugierigen Leserinnen und Lesern –, zu erforschen, wie Menschen ihre eigenen Erfahrungen von Unfreiheit und Freiheit beschrieben.

Figure 1
Figure 1.

Viele Stimmen an einem Ort versammeln

Im Zentrum des Projekts steht ein Textkorpus namens „Voices of the Formerly Enslaved“ (Stimmen der ehemals Versklavten). Er vereint zwei wichtige Quellengruppen aus den Vereinigten Staaten und Teilen der Karibik. Die erste besteht aus nahezu zweihundert autobiografischen Erstpersonenberichten von Menschen, die versklavt gewesen waren, die meisten ursprünglich im 19. Jahrhundert veröffentlicht und in der Sammlung Documenting the American South bewahrt. Die zweite umfasst mehr als zweitausend Interviews, die in den 1930er-Jahren im Rahmen des Federal Writers’ Project geführt wurden, in denen ältere Männer und Frauen auf ihre Kindheit in der Sklaverei zurückblickten. Alle diese Texte sind gemeinfrei, und das Team hat die Erlaubnis eingeholt, die digitalisierten Versionen dort wiederzuverwenden, wo es nötig war.

Von alten Seiten zu smarten Daten

Historische Seiten in verlässlichen digitalen Text zu verwandeln, ist alles andere als einfach. Frühe Digitalisierungsversuche führten zu vielen Fehlern: Buchstaben wurden als Zahlen gelesen, Wortfolgen wurden durcheinandergebracht, und bei der Vereinheitlichung der Rechtschreibung entstanden Inkonsistenzen. Die Forschenden ließen das Material deshalb mit einem modernen Werkzeug zur optischen Zeichenerkennung erneut verarbeiten und verglichen mehrere Versionen, darunter die der Library of Congress und von Project Gutenberg. Sie maßen, wie häufig Zeichen und ganze Wörter falsch erkannt wurden, und nutzten sorgfältig geprüfte „Gold“-Transkriptionen, um den Prozess zu verfeinern. So konnten sie herausfinden, welche Verfahren die genauesten Ergebnisse lieferten und wo noch manuelle Korrekturen nötig waren.

Figure 2
Figure 2.

Schichten von Bedeutung hinzufügen

Sobald der Grundtext in gutem Zustand war, reicherte das Team ihn mit vielen zusätzlichen Informationsebenen an. Mit einer Sprachverarbeitungs-Pipeline markierten sie Satzgrenzen, Wortarten, Lexemformen und grammatische Beziehungen. Sie begannen außerdem, Personen- und Ortsnamen zu identifizieren, und erstellten detaillierte Metadaten, etwa wann und wo ein Interview aufgenommen wurde, das Geschlecht der Hauptsprechenden und ob eine Seite gedrucktes Standardenglisch oder den Versuch widerspiegelt, gesprochene Umgangssprache festzuhalten. Besonderes Augenmerk galt der Art, wie Interviewer die afroamerikanische Rede der Zeit niederschrieben, die oft in nichtstandardmäßigen Schreibweisen wie „gwine“ für „going“ erscheint und für Computer schwer zu analysieren ist.

Sprache und Erfahrung erforschen

Diese technischen Schichten eröffnen neue Einblicke in Geschichte und Sprache. Mit Millionen von nun organisierten und annotierten Wörtern können Forschende groß angelegte Suchen nach Mustern durchführen: wie Menschen über Arbeit, Familie, Bestrafung oder Freiheit sprachen und wie sich diese Muster über Zeit oder Räume veränderten. Erste Experimente mit Wort-Einbettungsmodellen – Werkzeugen, die Wörter nach ähnlichen Bedeutungen gruppieren – haben bereits subtile Unterschiede aufgezeigt. So beziehen sich in Ich-Erzählungen ehemals Versklavter Begriffe wie „man“ und „person“ tendenziell auf Menschen unabhängig vom Hintergrund, während in anderen zeitgenössischen Texten „man“ stärker mit weißen Subjekten verknüpft ist und „person“ eher mit Afroamerikanern. Solche Befunde deuten darauf hin, dass das Korpus Aufschluss darüber geben kann, wie Sprache Rasse und sozialen Status kodierte.

Eine lebendige Ressource für geteiltes Erbe

Das Hauptergebnis des Artikels ist nicht eine einzelne historische Aussage, sondern eine dauerhafte, offen geteilte Forschungsressource. Version 0.1 des Korpus ist bereits verfügbar, inklusive Dokumentation, Beispielanalysen und Code zum Reproduzieren oder Erweitern der Arbeit. Zukünftige Veröffentlichungen werden weitere Interviews, reichhaltigere geografische Informationen, Themen- und Sentiment-Analysen sowie zusätzliche Erkundungswerkzeuge hinzufügen. Für eine allgemein interessierte Leserin oder einen Leser ist die Kernaussage, dass Stimmen, die lange in verstreuten Archiven gefangen waren, nun sorgsam gesammelt, bereinigt und verstärkt werden. Dieses digitale Korpus bewahrt die Worte ehemals Versklavter als Teil unseres gemeinsamen kulturellen Erbes und macht es Historikern, Studierenden und der Öffentlichkeit deutlich einfacher, aus dem zu lernen, was sie über ihr eigenes Leben zu sagen wählten.

Zitation: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x

Schlüsselwörter: Sklavenerzählungen, digitale Geisteswissenschaften, historische Linguistik, Geschichte der Afroamerikaner, Textkorpus