Clear Sky Science · ru
Голоса ранее порабощённых: новый текстовый корпус рассказов людей, бывших в рабстве
Слыша давно замолчавшие истории
На протяжении поколений повседневную жизнь порабощённых и бывших порабощённых чаще всего описывали через планы поместий, переписи населения и голоса рабовладельцев. В этой статье представлен новый способ услышать напрямую тех, кто пережил рабство: большая открытая коллекция жизнеописаний и интервью в цифровом виде. Тщательно переводя хрупкие книги и старые машинописные тексты в поисковый ресурс, проект значительно упрощает доступ для всех — от историков до любопытных читателей — к тому, как люди описывали собственный опыт рабства и свободы.

Собирая множество голосов в одном месте
В центре проекта — текстовый корпус под названием «Голоса ранее порабощённых». Он объединяет два основных типа источников из Соединённых Штатов и ряда регионов Карибского бассейна. Первый — это почти двести автобиографий от первого лица людей, бывших в рабстве, большинство из которых впервые опубликованы в XIX веке и сохранены в коллекции Documenting the American South. Второй — более двух тысяч интервью, проведённых в 1930-х годах в рамках Federal Writers’ Project, в которых пожилые мужчины и женщины вспоминали своё детство при рабстве. Все эти тексты находятся в общественном достоянии, а команда получила разрешения на повторное использование оцифрованных версий там, где это требовалось.
От старых страниц к умным данным
Преобразование исторических страниц в надёжный цифровой текст далеко не тривиально. Ранние усилия по оцифровке привели ко множеству ошибок: буквы воспринимались как цифры, нарушался порядок слов, допускались непоследовательные «исправления» орфографии. Исследователи снова прогнали материалы через современный инструмент оптического распознавания текста и сравнили несколько версий, включая данные Библиотеки Конгресса и Project Gutenberg. Они измеряли, как часто символы и целые слова считываются неверно, а затем использовали тщательно проверенные «золотые» расшифровки для тонкой настройки процесса. Это позволило определить, какие подходы дают наиболее точные версии и где всё ещё требуются ручные правки.

Добавление слоёв смысла
Как только базовый текст оказался в хорошем состоянии, команда обогатила его множеством дополнительных слоёв информации. С помощью конвейера обработки языка они пометили границы предложений, типы слов, словарные формы и грамматические связи. Они также начали идентифицировать имена людей и мест и составили детальные метаданные, такие как когда и где было записано интервью, пол основного рассказчика и указывает ли страница на печатный стандартный английский или на попытку зафиксировать разговорный вариант. Особое внимание уделялось тому, как интервьюеры записывали афроамериканскую речь того времени, которая часто представлена нестандартной орфографией, например «gwine» вместо «going», и может быть трудна для компьютерного анализа.
Исследуя язык и опыт
Эти технические слои открывают новые перспективы как для истории, так и для лингвистики. С миллионами слов, организованных и аннотированных, исследователи могут запускать масштабные поиски закономерностей: как люди говорили о работе, семье, наказаниях или свободе, и как эти модели менялись со временем или в разных местах. Ранние эксперименты с моделями встраивания слов — инструментами, которые группируют слова по схожему значению — уже выявили тонкие различия. Например, в рассказах от первого лица людей, ранее бывших в рабстве, термины вроде «man» и «person» чаще относятся к людям независимо от происхождения, тогда как в других современных текстах «man» теснее связан с белыми субъектами, а «person» — с афроамериканцами. Такие находки показывают, что корпус может пролить свет на то, как язык кодировал расу и статус.
Живой ресурс для общего наследия
Главный результат этой работы — не единое историческое утверждение, а прочный открытый исследовательский ресурс. Версия 0.1 корпуса уже доступна, с документацией, примерами анализа и кодом для воспроизведения или расширения работы. В будущих выпусках появятся дополнительные интервью, более подробная географическая информация, тематический и сентимент-анализы, а также дополнительные инструменты для исследования. Для непрофессионального читателя ключевая мысль в том, что голоса, долгое время запертые в разбросанных архивах, теперь аккуратно собирают, очищают и усиливают. Этот цифровой корпус сохраняет слова ранее порабощённых как часть нашего общего культурного наследия и значительно упрощает учёным, студентам и широкой публике возможность учиться на том, что эти люди выбрали рассказать о своей жизни.
Цитирование: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x
Ключевые слова: рабские мемуары, цифровые гуманитарные науки, историческая лингвистика, история афроамериканцев, текстовый корпус