Clear Sky Science · zh
前被奴役者的声音:前被奴役者叙述的新文本语料库
聆听长期被压制的故事
几代以来,被奴役者与曾被奴役者的日常生活常常通过种植园记录、人口普查表格以及奴隶主的声音来被讲述。本文介绍了一种直接倾听那些经历过奴隶制者的新途径:一个大型、公开可用的生活故事和访谈数字收藏。通过将脆弱的书籍和旧打字稿谨慎地转化为可检索的资源,该项目大大简化了历史学家到好奇读者等任何人探索人们如何描述自身被束缚与获得自由经历的方式。

把许多声音汇聚到一处
该项目的核心是名为“前被奴役者的声音”的文本语料库。它汇集了来自美国及加勒比部分地区的两类主要来源。第一类包括近两百部曾被奴役者的第一人称自传,多数最初发表于19世纪,并保存在“记录美国南方”收藏中。第二类由1930年代联邦作家计划所做的两千多次访谈组成,老人们回顾他们在奴隶制下的童年。这些文本均属公有领域,项目组在需要时也已取得重用数字化版本的许可。
从旧页到智能数据
把历史页码转成可靠的数字文本远非易事。早期的数字化工作带来了许多错误:字母被识别为数字、单词顺序混乱以及不一致的拼写修正。因此,研究人员重新使用现代光学字符识别工具处理这些材料,并比较了包括国会图书馆与古腾堡计划在内的若干版本。他们衡量了字符和整词被误读的频率,并用经过仔细校对的“金标准”转录来微调流程。这使他们能够识别出哪些方法产生了最准确的版本,以及哪些地方仍需进一步人工校正。

增加意义层次
在基础文本处理良好后,团队为其附加了多层信息。借助语言处理流程,他们标注了句子边界、词性、词典形式和语法关系。他们还开始识别人名与地名,并创建详细元数据,例如访谈记录的时间与地点、主要发言者的性别,以及页面反映的是印刷标准英语还是试图记录口头方言的写法。项目特别关注采访者记录当时非裔美国人语音的方式,这些通常以“gwine”等非标准拼写出现,给计算机分析带来挑战。
探索语言与经验
这些技术层次为历史与语言研究打开了新的窗口。随着数百万字的组织与注释,研究人员可以进行大规模模式搜索:人们如何谈论工作、家庭、惩罚或自由,这些模式如何随时间或地域而变化。早期使用词嵌入模型——将词按相似含义聚类的工具——的实验已揭示出细微差别。例如,在前被奴役者的第一人称叙述中,“man”和“person”之类的词通常指代人群而不区分背景,而在其他同时代文本中,“man”更常与白人主体相关,“person”则更多指向非裔美国人。这类发现表明,该语料库可以揭示语言如何编码种族与身份地位。
作为共享遗产的活资源
这篇文章的主要成果不是单一的历史论断,而是一个持久、公开共享的研究资源。语料库0.1版已可用,附带文档、示例分析和用于重现或扩展工作的代码。未来版本将加入更多访谈、更丰富的地理信息、主题与情感分析以及更多探索工具。对普通读者而言,关键信息是长期散落于各处档案中的声音正被仔细收集、清理并放大。这个数字语料库将前被奴役者的言辞作为我们共同文化遗产的一部分保存下来,并让学者、学生与公众更容易从他们关于自身生活的叙述中学习。
引用: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x
关键词: 奴隶叙事, 数字人文, 历史语言学, 非裔美国人历史, 文本语料库