Clear Sky Science · he

ניצול מודלי ניתוח נושאים לחקר ממדים פסיכולוגיים בנתוני מדיה חברתית

2026-01-23 · חזרה לאינדקס

מדוע המילים שאנו כותבים ברשת חשובות

מיליונים מדברים על רגשותיהם ברשתות החברתיות מדי יום, לעיתים בגלוי יותר מאשר פנים אל פנים. מתחת לפני השטח של ים התגובות האקראי הזה מסתתרים רמזים חשובים לגבי בריאות הנפש, כולל סימנים לדיכאון או לפגיעה עצמית. המחקר שואל שאלה פשוטה עם משמעויות גדולות: האם בינה מלאכותית מודרנית יכולה לסנן את הרועש המקוון, למצוא נושאים משמעותיים ולעזור למקצוענים להבין סיכונים פסיכולוגיים—מבלי לקרוא כל פוסט בנפרד?

להפוך כאוס לנושאים

החוקרים התרכזו באוסף גדול של פוסטים מהרדיט מפרויקט eRisk, הכולל אנשים שדיווחו כי אובחנו עם דיכאון וקבוצת ביקורת ללא אבחנות ידועות. המטרה שלהם לא הייתה לאבחן יחידים, אלא לבדוק האם ניתוח נושאים—טכניקות שמקבצות טקסטים לפי נושאים משותפים—יכול לחשוף דפוסים הרלוונטיים לבריאות הנפש. מאחר ששפת המדיה החברתית מבולגנת, מלאה בסלנג, טעויות הקלדה, והסטות פתאומיות בנושאים, זה מבחן ריאלי אך מאתגר מאוד לשיטות אלה.

שלוש דרכים לגלות על מה אנשים מדברים

המחקר השווה שלוש משפחות שונות של מודלי נושאים. הראשון, Latent Dirichlet Allocation (LDA), הוא שיטה קלאסית שבוחנת עד כמה מילים מופיעות יחד במסמכים. השני, BERTopic, משתמש במודלי שפה מודרניים רבי-עוצמה כדי להפוך כל פוסט לייצוג מספרי עשיר, מקבץ פוסטים דומים ומחלץ מילים מרכזיות לכל קבוצה. השלישי, TopClus, גם הוא נשען על רשתות נוירוניות, ומשלב מנגנוני תשומת לב וקיבוץ במרחב מתמטי משותף. שלושת המודלים הופעלו עם הגדרות סטנדרטיות כדי להפיק 50 נושאים כל אחד, מדמה את אופן השימוש הנפוץ של חוקרים במערכות אלה מחוץ לקופסה.

שואלים בני אדם, לא רק נוסחאות

כדי לשפוט אילו נושאים היו באמת משמעותיים, הצוות לא הסתמך רק על מדדי אוטומטיים. שישה מתייגים מאומנים בחנו 150 נושאים, שכל אחד מהם הוצג באמצעות המילים המובילות שלו ומספר פוסטים מרכזיים. עבור כל נושא הם דירגו עד כמה רשימת המילים הייתה קוהרנטית, עד כמה פוסטים הדוגמה היו קוהרנטיים, והאם המילים והפוסטים תאמו זה את זה. הם גם ניסו לתת לכל נושא שם קצר ואינטואיטיבי כאשר אפשר. הגישה הממוקדת בבני אדם חשפה ממצא מפתח: מדדי "קוהרנטיות" מספריים, הנפוצים במחקר, לעיתים קרובות סתרו את שיקול דעת האדם, במיוחד בטקסטים המבולגנים של מדיה חברתית.

המנצח הברור ומה שהוא חשף

בכל דירוגי האנושיים, BERTopic הפיק בבירור את הנושאים המובנים והמוחשיים ביותר. המתייגים יכלו לקרוא לנושאים שלו לעתים רחוקות יותר מאשר לנושאים של המודלים האחרים, והם הסכימו זה עם זה ברמה מוצקה ומתונה. LDA, בניגוד לכך, לעיתים קרובות קיבץ יחד מילים ופוסטים לא קשורים שנראו כמעט אקראיים לסוקרים. לאחר בחירת הנושאים הטובים ביותר, החוקרים חקרו מה אנשים למעשה דיברו עליו. חלק מהנושאים, כמו "מאבקים בבריאות הנפש" ו"פגיעה עצמית", היו מקושרים בחוזקה למשתמשים עם דיכאון וכללו פוסטים רבים המבטאים מצוקה. אחרים היו פחות ברורים קלינית—כגון "מסע להרזיה", "זהות מגדרית", "חלומות מיניים" ו"נימוסי שתיית אלכוהול חברתית"—אך התבררו כמכילים אחוז גבוה של פוסטים ממשתמשים מדוכאים ורמזים רבים לכאב רגשי. ניתוח פשוט לפי זמן הראה כי הפעילות בחלק מהנושאים הרגישים הללו זינקה במהלך מגפת COVID-19, מה שמשקף דיווחים רחבים יותר על החמרה בבריאות הנפש.

ממדפוסים מקוונים לעזרה בעולם האמיתי

כדי להבין טוב יותר עד כמה חלק מהפוסטים האלה עשויים להיות רציניים, המחברים השתמשו במודל שפה נפרד כדי למפות בקירוב את התוכן לפריטים מתוך שאלון דיכאון ידוע (Beck Depression Inventory). שלב חקירתי זה הציע שלנושאים מסוימים, במיוחד סביב מאבקי בריאות הנפש, פגיעה עצמית, דימוי גוף וזהות מגדרית, יש לעתים שפה המקושרת לתסמינים דיכאוניים בדרגה בינונית עד קשה. המחברים מדגישים כי קריאות אוטומטיות כאלה אינן אבחנות קליניות, אך הן יכולות לסייע להדגיש איפה תשומת לב מקצועית דרושה בדחיפות.

מה המשמעות של זה לבריאות הנפש וטכנולוגיה

במונחים פשוטים, המחקר מראה שמודלי הנושאים המתקדמים של היום, ובפרט BERTopic, יכולים להפוך שיחות כאוטיות במדיה חברתית לנושאים ברורים שמתיישבים עם דאגות פסיכולוגיות אמיתיות. הוא גם מדגים כי אמונה עיוורת במדדי איכות אוטומטיים מסוכנת; סקירה אנושית נותרה חיונית כאשר המטרה היא לתמוך בהחלטות הנוגעות לבריאות הנפש. בעתיד, כלים דומים עשויים לסייע למטפלים, לרשויות ציבוריות ולחוקרים לעקוב אחרי מגמות רחבות, לזהות סיכונים מתעוררים ולעצב מאמצי מניעה טובים יותר—בעוד ששיפוט וטיפול סופי יישארו בידי אנשי מקצוע אנושיים.

ציטוט: Couto, M., Parapar, J. & Losada, D.E. Exploiting topic analysis models to explore psychological dimensions in social media data. Sci Rep 16, 6047 (2026). https://doi.org/10.1038/s41598-026-36339-y

מילות מפתח: מדיה חברתית ודיכאון, נושא מודלינג, דפוסי בריאות הנפש, אותות פגיעה עצמית מקוונים, מודלי שפה בפסיכולוגיה