Clear Sky Science · pt

Vozes de ex-escravizados: Um novo corpus textual de narrativas de pessoas anteriormente escravizadas

· Voltar ao índice

Ouvindo histórias há muito silenciadas

Por gerações, a vida cotidiana de pessoas escravizadas e ex-escravizadas tem sido narrada principalmente por registros de plantações, tabelas censitárias e pelas vozes dos proprietários de escravos. Este artigo apresenta uma nova maneira de escutar diretamente quem viveu a escravidão: uma grande coleção de relatos de vida e entrevistas em formato digital, disponível abertamente. Ao transformar com cuidado livros frágeis e velhos manuscritos em um recurso pesquisável, o projeto facilita muito que qualquer pessoa — de historiadores a leitores curiosos — explore como as pessoas descreveram suas próprias experiências de servidão e liberdade.

Figure 1
Figure 1.

Reunindo muitas vozes em um só lugar

O cerne do projeto é um corpus textual chamado “Vozes dos ex-escravizados”. Ele reúne dois tipos principais de fontes dos Estados Unidos e de partes do Caribe. O primeiro consiste em quase duzentas autobiografias em primeira pessoa por pessoas que haviam sido escravizadas, a maioria publicada originalmente no século XIX e preservada na coleção Documenting the American South. O segundo consiste em mais de dois mil entrevistas conduzidas na década de 1930 pelo Federal Writers’ Project, nas quais homens e mulheres idosos relembraram sua infância na escravidão. Todos esses textos estão em domínio público, e a equipe obteve permissão para reutilizar as versões digitalizadas quando necessário.

De páginas antigas a dados inteligentes

Transformar páginas históricas em texto digital confiável está longe de ser simples. Esforços de digitalização anteriores introduziram muitos erros: letras lidas como números, ordem de palavras embaralhada e correções inconsistentes de grafia. Os pesquisadores, portanto, reprocessaram o material com uma ferramenta moderna de reconhecimento óptico de caracteres e compararam várias versões, incluindo as da Biblioteca do Congresso e do Project Gutenberg. Eles mediram com que frequência caracteres e palavras inteiras eram lidos incorretamente e então usaram transcrições “ouro” cuidadosamente verificadas para ajustar o processo. Isso permitiu identificar quais abordagens produziam as versões mais precisas e onde ainda eram necessárias correções manuais.

Figure 2
Figure 2.

Acrescentando camadas de significado

Uma vez que o texto básico estava em bom estado, a equipe o enriqueceu com muitas camadas extras de informação. Usando uma cadeia de processamento de linguagem, marcaram limites de sentença, tipos de palavra, formas dicionarizadas e relações gramaticais. Também começaram a identificar nomes de pessoas e lugares e criaram metadados detalhados, como quando e onde uma entrevista foi gravada, o gênero do falante principal e se uma página refletia o inglês impresso padronizado ou uma tentativa de capturar o vernáculo oral. Atenção especial foi dada à forma como os entrevistadores registraram a fala afro-americana da época, que frequentemente aparece em grafias não padronizadas como “gwine” para “going” e pode ser difícil para computadores analisarem.

Explorando linguagem e experiência

Essas camadas técnicas abrem novas janelas tanto para a história quanto para a linguagem. Com milhões de palavras agora organizadas e anotadas, os pesquisadores podem executar buscas em larga escala por padrões: como as pessoas falavam sobre trabalho, família, punição ou liberdade, e como esses padrões mudaram ao longo do tempo ou de um lugar para outro. Experimentos iniciais usando modelos de incorporação de palavras — ferramentas que agrupam termos por significados semelhantes — já revelaram distinções sutis. Por exemplo, em narrativas em primeira pessoa por ex-escravizados, termos como “man” e “person” tendem a referir-se a pessoas independentemente de origem, enquanto em outros textos contemporâneos “man” está mais associado a sujeitos brancos e “person” a afro-americanos. Esses achados sugerem que o corpus pode esclarecer como a linguagem codificava raça e status.

Um recurso vivo para um patrimônio compartilhado

O resultado principal do artigo não é uma única assertiva histórica, mas um recurso de pesquisa durável e compartilhado abertamente. A versão 0.1 do corpus já está disponível, completa com documentação, análises de exemplo e código para reproduzir ou estender o trabalho. Lançamentos futuros acrescentarão mais entrevistas, informações geográficas mais ricas, análises de tópicos e sentimento e ferramentas adicionais para exploração. Para o leitor leigo, a mensagem central é que vozes há muito confinadas em arquivos dispersos estão agora sendo cuidadosamente reunidas, limpas e amplificadas. Este corpus digital preserva as palavras das pessoas anteriormente escravizadas como parte de nosso patrimônio cultural comum e facilita muito que acadêmicos, estudantes e o público aprendam com o que elas escolheram dizer sobre suas próprias vidas.

Citação: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x

Palavras-chave: narrativas de escravos, humanidades digitais, linguística histórica, história afro-americana, corpus textual