Clear Sky Science · he

דקדוק כביומטריה התנהגותית: שימוש במודלים דקדוקיים מונעים קוגניטיבית לאימות מחבר

2026-03-03 · חזרה לאינדקס

מדוע סגנון הכתיבה שלך דומה לטביעת אצבע

בכל פעם שאתה כותב — בין אם זה אימייל, ביקורת או פרסום ברשתות החברתיות — אתה מגלה על עצמך יותר ממה שאולי נדמה. מעבר לנושאים שבוחרים, אבני הבניין הקטנות של המשפטים שלך, כמו מילים קטנות וסימני פיסוק, יוצרות תבניות שהן מפתיעות באופן אישי. מאמר זה בוחן שיטה חדשה להשתמש בתבניות אלה כדי לקבוע האם שני טקסטים נכתבו על ידי אותו אדם, עם השלכות פוטנציאליות למשפט, ביטחון ולהבנת האופן שבו שפה חיה במוח.

איך חוקרים מחליטים מי כתב מה

בזירת הפורנזיקה הטקסטואלית הדיגיטלית, מומחים לעתים קרובות מתמודדים עם שאלות כמו: האם אותו אדם כתב את המייל המאיים הזה ואת ההודעה הקודמת? האם שני חשבונות מקוונים נשלטים על ידי אותו פרט? גישות מסורתיות לבעיות אימות מחבר מתחלקות לשלושה מחנות. חלק משווים רק טקסטים של המחבר הידוע עם הטקסט הנבדק. אחרים מאמנים מסווג על דוגמאות רבות של זוגות תואמים ולא תואמים. קבוצה שלישית, שעליה המאמר מתמקד, מביאה "אוכלוסיית ייחוס" חיצונית של טקסטים כדי להבין כמה סגנון כתיבה מסוים חריג ביחס לעשרות כותבים אחרים. בעשור האחרון שלטו משימות ושערי ביצוע טכניקות חזקות אך לא שקופות — במיוחד אלה המבוססות על רצפי תווים וחזקות רשתות נוירוניות עמוקות. עם זאת, הן יכולות להיות איטיות, קשות לפרש ולעיתים מונעות יותר על ידי נושא הטקסט מאשר על ידי הרגלי הסגנון האמיתיים של הכותב.

מבטויים להרגלים במוח

המחברים מסמכים את שיטתם החדשה בתוך הלשנות קוגניטיבית, תחום הרואה דקדוק לא כקובץ חוקים נוקשים אלא כרשת של תבניות נלמדות. לפי גישה זו, מוחנו "מקטע" רצפים שחוזרים לעתים קרובות — כמו "של ה" או "אני לא יודע" — ליחידות שהופכות לאוטומטיות, בדומה לצעדי ריקוד שאומנו היטב. יחידות אלה נמצאות על רצף בין ביטויים קבועים לתבניות גמישות ומבנים מופשטים יותר. מכיוון שחוויותינו והיסטוריות הקריאה שלנו שונות, השילובים הספציפיים שהוטמעו עמוק בתוך המוחות שלנו שונים גם הם. "עקרון האינדיבידואליות הלשונית" הזה מרמז שאין שני אנשים שחולקים בדיוק את אותו דקדוק פנימי. המאמר טוען שהדקדוק המיוחד הזה יכול לתפקד כסוג של ביומטריה התנהגותית, בדומה לרוחב הכתב או לאופן ההליכה.

הפיכת דקדוק חבוי לאות מדיד

בהמשך תאוריה זו מציגים המחברים את LambdaG, שיטה הממנפת דגם של דקדוק המחבר תוך התעלמות מכוונה מנושאים וממילים תכולתיות. ראשית, הטקסטים עוברים מסנן ששומר רק על מילות פונקציה, סימני פיסוק וכמה קטגוריות מופשטות, ומוריד שמות ותוכן ספציפי. טקסטים מסוננים אלה מפוצלים למשפטים ומוזנים לדגם סטטיסטי של "n-גרם" שלומד עד כמה כל רצף קטן של טוקנים דקדוקיים סביר עבור אותו מחבר. סט שני של דגמים, מאומן על כותבים רבים אחרים, ממלא את תפקיד אוכלוסיית ההשוואה. עבור כל טוקן בטקסט הנחקר, LambdaG שואל: עד כמה הטוקן הזה טבעי בהקשר זה עבור המחבר המועמד יותר מאשר עבור כותבי הייחוס? השוואות אלה משולבות לציון יחיד שמשקף גם דמיון למחבר המועמד וגם נדירות באוכלוסייה הרחבה. רגרסיה לוגיסטית פשוטה מגדירה את האות כך שניתן לפרש אותו כחוזק ראייתי מדורג בהקשרים פורנזיים.

כמה טובה השיטה החדשה

המחברים בוחנים את LambdaG על שתים-עשרה מערכי נתונים המדמים מצבים אמיתיים: אימיילים, יומני צ'אט, ביקורות, כתבות חדשות ועוד, לעתים קרובות עם טקסטים קצרים יחסית. הם משווים אותה לשבעה בסיסים חזקים, כולל שיטת ה"אימפוסטרים" המשפיעה, גישה מבוססת דחיסה, אנסמבל שאינו תלוי בנושא ומספר מערכות נוירוניות עמוקות. על פני מדדים כמו דיוק ושטח מתחת לעקומת ה-ROC, LambdaG מדורגת ראשונה ברוב המערכות ושנייה במספר אחרות, ולעתים גוברת על מודלים נוירוניים גם כאשר אלה מורשים לנצל את התוכן המלא. היא גם פחות רגישה מאשר שיטות קודמות לשינויים באוכלוסיית הייחוס: הביצועים יורדים כאשר טקסטי הייחוס מקורם בז'אנר שונה מאוד, אבל לא עד כדי הפיכתן לחסרות תועלת. מאחר שהציון של LambdaG ניתן לפירוק משפט אחר משפט ואפילו טוקן אחר טוקן, אנליסטים יכולים להפיק מפות חום שמדגישות באופן חזותי אילו תבניות בטקסט השפיעו ביותר על ההחלטה.

מה משמעות הדבר לזהות ופרטיות

המסקנה במחקר היא כי הדקדוק של הפרט — האופן שבו הוא נוטה לשזור יחד מילים קטנות, סימני פיסוק ותבניות חוזרות — פועל בדומה לביומטריה התנהגותית. אפילו בכמות של אלף עד אלפיים מילים, LambdaG יכולה לעתים לנחש רצפים אידיוסינקרטיים המבחינים באופן חזק אדם אחד מאחרים, והמחברים טוענים שרבים מהיחידות הללו אינן נשלטות במודע על ידי הכותבים עצמם. הדבר מביא יתרונות ברורים לעבודה פורנזית: הוא מציע שיטה יחסית פשוטה, איתנה אמפירית ומושרשת בתאוריה לשונית מפותחת, מה שהופך את ההסבר שלה לנהיר יותר בבית משפט. ובאותו זמן, זה מדגיש נקודה רלוונטית לפרטיות: הכתיבה היומיומית שלנו נושאת בשקט חתימה יציבה וזיהויית, ששורשה לא במה שאנו אומרים אלא באופן שבו מוחנו למד לומר זאת.

ציטוט: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

מילות מפתח: אימות מחבר, סגנומטריה, לשון משפטית (forensic linguistics), ביומטריה התנהגותית, מידול דקדוק