Clear Sky Science · he
קולות של לשעבר שעונו: קורפוס טקסט חדש של סיפורים מאנשים ששוחררו מעבדות
להאזין לסיפורים שנשתקו זמן רב
במשך דורות, חייהם היומיומיים של אנשים שנשבו או שוחררו מעבדות סופרו לעתים קרובות דרך רישומי מטעים, טבלאות מפקד וכמובן בקולם של בעלי העבדים. מאמר זה מציג דרך חדשה להאזין ישירות לאלה שחיו בעבדות: אוסף גדול ונגיש של סיפורי חיים וריאיונות בצורת דיגיטלית. על‑ידי המרת ספרים שבירים וטפסים ישנים למשאב הניתן לחיפוש, הפרויקט מקל בהרבה על כל אחד — היסטוריונים או קוראים סקרנים — לחקור כיצד תיארו אנשים את חוויות העבדות והחופש שלהם.

לאגד קולות רבים במקום אחד
ליבה של הפרויקט הוא קורפוס טקסט שנקרא "קולות של לשעבר שעונו." הוא מאגד שני סוגי מקורות עיקריים מארצות הברית וחלקים מהאיים הקריביים. הראשון כולל כמעט מאתיים אוטוביוגרפיות בגוף ראשון של אנשים שנשבו, רובן פורסמו במקור במאה ה‑19 ושובצו באוסף Documenting the American South. השני כולל יותר מאלף ראיונות שנערכו בשנות ה‑30 במסגרת Federal Writers’ Project, שבהם גברים ונשים מבוגרים הביטו לאחור אל ילדותם בעבדות. כל הטקסטים הללו נמצאים בתחום הציבורי, והצוות קיבל הרשאה להשתמש בגרסאות הדיגיטליות כאשר נדרש.
מעמודים ישנים לנתונים חכמים
המרת דפים היסטוריים לטקסט דיגיטלי אמין אינה פשוטה כלל. ניסיונות דיגיטציה קודמים הכניסו שגיאות רבות: אותיות שהוזזו כמספרים, סדר מילים מבולגן ותיקוני איות לא עקביים. לכן החוקרים הריצו מחדש את החומר דרך כלי זיהוי תווים אופטי מודרני והשוו כמה גרסאות, כולל אלה של ספריית הקונגרס ופרויקט גוטנברג. הם מדדו כמה פעמים אותיות ומילים שלמות נקראו בצורה שגויה, ואז השתמשו בתמלילים "זהב" שנבדקו בקפידה כדי לכוונן את התהליך. כך יכלו לזהות אילו שיטות הניבו את הגרסאות המדויקות ביותר והיכן נדרשה עדיין תיקון ידני נוסף.

הוספת שכבות משמעות
ברגע שהטקסט הבסיסי היה במצב טוב, הצוות העשיר אותו בשכבות מידע נוספות. בעזרת צינור עיבוד שפה, סומנו גבולות משפט, סוגי מילים, צורות מילוניות ויחסים דקדוקיים. הם גם החלו לזהות שמות אנשים ומקומות ויצרו מטא‑דאטה מפורטת, כגון מתי והיכן ריאיון הוקלט, מינו של המדבר הראשי והאם דף משקף אנגלית סטנדרטית מודפסת או ניסיון ללכוד שפה מדוברת. הושם דגש מיוחד על הדרך שבה המראיינים תיעדו דיבור של אפרו‑אמריקאים בתקופה ההיא, שלרוב מופיע באיות לא סטנדרטי כמו "gwine" במקום "going" ויכול להיות קשה לניתוח ממוחשב.
לחקור שפה וחוויה
שכבות טכניות אלה פותחות חלונות חדשים הן להיסטוריה והן לשפה. עם מיליוני מילים שעכשיו מאורגנות ומתועדות, חוקרים יכולים לבצע חיפושים בסקלת מאקרו אחר דפוסים: כיצד דיברו על עבודה, משפחה, ענישה או חופש, וכיצד דפוסים אלה השתנו לאורך זמן או ממקום למקום. ניסויים ראשוניים באמצעות מודלים להטמעת מילים — כלים שמקבצים מילים לפי משמעויות דומות — כבר חשפו הבחנות עדינות. למשל, בסיפורים בגוף ראשון של לשעבר שעונו, מונחים כמו "man" ו"person" נוטים להתייחס לאנשים ללא הבחנה רקע, בעוד שבטקסטים עכשוויים אחרים "man" מקושר יותר לנושאים לבנים ו"person" לאפרו‑אמריקאים. ממצאים שכאלה מרמזים שהקורפוס יכול להאיר איך השפה קידדה גזע ומעמד.
משאב חי למורשת משותפת
התוצאה העיקרית של המאמר אינה טענה היסטורית יחידה אלא משאב מחקרי עמיד וחופשי לשיתוף. גרסה 0.1 של הקורפוס כבר זמינה, כולל תיעוד, דוגמאות ניתוח וקוד לשחזור או להרחבת העבודה. שחרורים עתידיים יוסיפו ראיונות נוספים, מידע גיאוגרפי עשיר יותר, ניתוחי נושאים ורגשות וכלים נוספים לחקירה. לקורא שאינו מומחה, המסר המרכזי הוא שקולות שנשמרו עד היום בארכיונים מפוזרים נאספים כעת בקפידה, מנוקוים ומוגברים. קורפוס דיגיטלי זה שומר את דבריהם של לשעבר שעונו כחלק מהמורשת התרבותית המשותפת שלנו ומקל מאוד על חוקרים, סטודנטים והציבור ללמוד ממה שבחרו לומר על חייהם.
ציטוט: Elmerot, I., Olsson, LJ. & Rönnbäck, K. Volces of formerly enslaved: A new text corpus of narratives by formerly enslaved persons. Sci Data 13, 682 (2026). https://doi.org/10.1038/s41597-026-07340-x
מילות מפתח: סיפורי עבדים, מדעי הרוח הדיגיטליים, בלשנות היסטורית, היסטוריה אפרו‑אמריקאית, מאגר טקסטים