Clear Sky Science · ja
かつて奴隷であった人々の声:かつて奴隷だった人々による物語の新しいテキストコーパス
長く沈黙してきた物語に耳を傾ける
何世代にもわたり、奴隷およびかつて奴隷であった人々の日常生活は、しばしば大庄園の記録、国勢調査表、そして奴隷所有者の声を通して語られてきました。本稿は、奴隷制を生き抜いた人々自身の声に直接耳を傾ける新しい方法を紹介します:生活史やインタビューをデジタル化して大規模に公開するコレクションです。壊れやすい書籍や古いタイプ原稿を慎重に検索可能な資源へと変換することで、歴史家から好奇心ある読者に至るまで、誰もが拘束と自由に関する人々の自己表現をより容易に探究できるようになります。

多くの声を一つの場に集める
プロジェクトの中核は「Voices of the Formerly Enslaved(かつて奴隷であった人々の声)」と呼ばれるテキストコーパスです。これはアメリカ合衆国とカリブ海地域の一部からの二つの主要な種類の資料を統合しています。第一は、ほとんどが1800年代に刊行され、Documenting the American Southコレクションに保存されている、奴隷であった人々による約200件の一人称自伝です。第二は、1930年代にFederal Writers’ Projectが実施した2000件を超えるインタビューで、当時高齢となった男女が奴隷時代の幼少期を回想しています。これらのテキストはすべてパブリックドメインにあり、チームは必要に応じてデジタル化版の再利用許可も確保しました。
古いページをスマートなデータへ
歴史的なページを信頼できるデジタルテキストに変換することは、決して容易ではありません。以前のデジタル化では多くの誤りが導入されました:文字が数字として読み取られる、単語の順序が入れ替わる、つづりの不統一な訂正などです。そこで研究者たちは、資料を現代の光学文字認識(OCR)ツールで再処理し、Library of CongressやProject Gutenbergなど複数の版と比較しました。文字や単語全体がどの程度誤読されるかを測定し、厳密に点検された「ゴールド」転写を使ってプロセスを微調整しました。これにより、どの手法が最も正確な版を生み、どこにさらなる手作業による訂正が必要かを特定できました。

意味の層を付け加える
基本テキストが整った後、チームは多くの追加情報の層でそれを豊かにしました。言語処理のパイプラインを用いて、文の境界、語の類型、辞書形、文法的関係を注記しました。さらに人名や地名の特定を始め、いつどこでインタビューが記録されたか、主要話者の性別、ページが印刷された標準英語を反映しているか、あるいは口語的な発話を捕えようとした表記かといった詳細なメタデータを作成しました。特にインタビュアーが当時のアフリカ系アメリカ人の語りをどのように書き留めたかに注意が払われました。たとえば“going”を“gwine”のように非標準的につづる表記はコンピュータ解析を困難にすることが多いからです。
言語と経験を探る
これらの技術的な注記層は、歴史と語学の双方に新しい視座をもたらします。何百万語もの語彙が整理・注釈されたことで、研究者は大規模な検索によりパターンを抽出できます:人々が労働、家族、罰、あるいは自由についてどのように語ったか、そしてそれらのパターンが時間や地域によってどう変化したかなどです。語の意味的類似性で語をクラスタリングするワード・エンベディングモデルを用いた初期の実験は、微妙な区別を明らかにしています。たとえば、かつて奴隷であった人々による一人称の物語では、“man”や“person”といった語が背景にかかわらず人々を指す傾向がある一方、他の当時のテキストでは“man”が白人被写体により結びつき、“person”がアフリカ系アメリカ人を指すことが多い、という違いが見られます。こうした発見は、言語が人種や身分をどのように符号化していたかを照らし出す可能性があります。
共有遺産のための生きた資源
本稿の主要な成果は単一の歴史的主張ではなく、耐久性のある公開研究資源の整備です。コーパスのバージョン0.1はすでに公開されており、ドキュメント、分析例、再現・拡張のためのコードが含まれています。将来のリリースではさらなるインタビューや、より詳細な地理情報、トピック・感情分析、探索のための追加ツールが加わる予定です。一般読者への要点は、長い間散在するアーカイブに閉じ込められていた声が、慎重に収集・清書・増幅されつつあるということです。このデジタルコーパスは、かつて奴隷であった人々の言葉を我々の共通文化遺産の一部として保存し、学者、学生、一般の人々が彼ら自身の人生について語ったことから学ぶことをはるかに容易にします。
引用: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x
キーワード: 奴隷の記録, デジタル人文学, 歴史言語学, アフリカ系アメリカ人の歴史, テキストコーパス