Clear Sky Science · pl
Głosy dawnych niewolników: nowy korpus tekstów z narracjami byłych niewolników
Przywracanie dawno uciszonych opowieści
Przez pokolenia codzienne życie osób zniewolonych i byłych niewolników bywało opisywane głównie przez dokumenty plantacyjne, tabele spisowe i głosy posiadaczy niewolników. Ten artykuł przedstawia nowy sposób, by bezpośrednio słuchać tych, którzy przeżyli niewolnictwo: dużą, ogólnodostępną kolekcję opowieści o życiu i wywiadów w formie cyfrowej. Poprzez ostrożne przełożenie kruchych książek i starych maszynopisów na przeszukiwalny zasób, projekt znacznie ułatwia każdemu — od historyków po ciekawskich czytelników — badanie tego, jak ludzie opisywali własne doświadczenia zniewolenia i wolności.

Zgromadzenie wielu głosów w jednym miejscu
Rdzeniem projektu jest korpus tekstowy zatytułowany „Głosy dawnych niewolników”. Łączy on dwa główne typy źródeł z terytorium Stanów Zjednoczonych i części Karaibów. Pierwszy to blisko dwieście autobiografii w pierwszej osobie napisanych przez osoby, które były zniewolone — większość pierwotnie opublikowana w XIX wieku i zachowana w kolekcji Documenting the American South. Drugi to ponad dwa tysiące wywiadów przeprowadzonych w latach 30. XX wieku w ramach Federal Writers’ Project, w których starsi mężczyźni i kobiety wspominali swoje dzieciństwo spędzone w niewolnictwie. Wszystkie te teksty znajdują się w domenie publicznej, a zespół uzyskał tam, gdzie było to konieczne, pozwolenie na ponowne wykorzystanie zdigitalizowanych wersji.
Z dawnych stron do inteligentnych danych
Przekształcenie historycznych stron w wiarygodny tekst cyfrowy jest dalekie od prostego zadania. Wcześniejsze próby digitalizacji wprowadzały wiele błędów: litery odczytywane jako cyfry, pomieszany szyk słów i niespójne korekty pisowni. Badacze ponownie przetworzyli materiały za pomocą nowoczesnego narzędzia do rozpoznawania tekstu (OCR) i porównali kilka wersji, w tym te z Library of Congress i Project Gutenberg. Mierzyli, jak często znaki i całe wyrazy były błędnie odczytywane, a następnie użyli starannie sprawdzonych „złotych” transkrypcji, by dostroić proces. Pozwoliło to ustalić, które metody dają najdokładniejsze wersje i gdzie wciąż potrzebna jest ręczna korekta.

Dodawanie warstw znaczeń
Gdy podstawowy tekst był już w dobrym stanie, zespół wzbogacił go o liczne dodatkowe warstwy informacji. Przy użyciu potoku przetwarzania języka oznaczyli granice zdań, rodzaje słów, formy słownikowe i zależności gramatyczne. Zaczęli też identyfikować imiona osób i nazwy miejsc oraz tworzyć szczegółowe metadane, takie jak kiedy i gdzie nagrano wywiad, płeć głównego mówcy oraz czy strona odzwierciedlała drukowany standardowy angielski, czy próbę oddania mówionego języka potocznego. Szczególną uwagę poświęcono sposobowi, w jaki ankieterzy zapisywali ówczesną mowę Afroamerykanów, która często występuje w niestandardowej pisowni, np. „gwine” zamiast „going”, i może być trudna do analizy przez komputery.
Badanie języka i doświadczenia
Te techniczne warstwy otwierają nowe okna na historię i język. Dzięki milionom teraz uporządkowanych i opatrzonych adnotacjami słów badacze mogą prowadzić analizy na dużą skalę w poszukiwaniu wzorców: jak ludzie mówili o pracy, rodzinie, karze czy wolności oraz jak te wzorce zmieniały się w czasie i w zależności od miejsca. Wstępne eksperymenty z modelami osadzania słów — narzędziami grupującymi słowa o podobnym znaczeniu — ujawniły już subtelne rozróżnienia. Na przykład w narracjach w pierwszej osobie pisanych przez byłych niewolników terminy takie jak „man” i „person” mają tendencję odnosić się do ludzi niezależnie od pochodzenia, podczas gdy w innych współczesnych tekstach „man” jest silniej związane z białymi podmiotami, a „person” z Afroamerykanami. Takie ustalenia sugerują, że korpus może rzucić światło na to, jak język kodował rasę i status społeczny.
Żywe źródło wspólnego dziedzictwa
Głównym wynikiem artykułu nie jest pojedyncze historyczne twierdzenie, lecz trwały, otwarcie udostępniony zasób badawczy. Wersja 0.1 korpusu jest już dostępna, wraz z dokumentacją, przykładami analiz i kodem do odtwarzania lub rozszerzania pracy. Przyszłe wydania dodadzą więcej wywiadów, bogatsze informacje geograficzne, analizy tematyczne i sentymentu oraz dodatkowe narzędzia do eksploracji. Dla przeciętnego czytelnika kluczowe przesłanie jest takie, że głosy długo rozproszone po archiwach są teraz starannie gromadzone, oczyszczane i wzmacniane. Ten cyfrowy korpus zachowuje słowa dawnych niewolników jako część naszego wspólnego dziedzictwa kulturowego i znacznie ułatwia naukowcom, studentom i opinii publicznej uczenie się z tego, co ci ludzie zdecydowali się opowiedzieć o własnym życiu.
Cytowanie: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x
Słowa kluczowe: narracje niewolnicze, humanistyka cyfrowa, lingwistyka historyczna, historia Afroamerykanów, korpus tekstowy