Clear Sky Science · he

ניתוח תמות בעזרת בינה מלאכותית גנרטיבית וקוד פתוח ולמידת מכונה: שיטה חדשה לפיתוח מדריך קידוד איכותני אינדוקטיבי

· חזרה לאינדקס

מדוע זה חשוב לשאלות יום‑יומיות

כשהאנשים ממלאים סקרים או עונים על שאלות בראיון, הם משאירים מאחורים סיפורים עשירים על עבודה, בית ספר, בריאות או חיי קהילה. קריאת כמה עשרות תשובות כזו אינה קשה; להבין אלפי תשובות היא כבר אתגר. המאמר מתאר דרך חדשה לחוקרים להשתמש בבינה מלאכותית גנרטיבית בקוד פתוח כדי לסייע במיון ערימות ענק של תגובות כתובות ולהעלות את הרעיונות המרכזיים, תוך שמירה על שליטת האדם בפרשנות. המטרה היא לאפשר מחקר איכותני מדוקדק וממושך בקנה מידה שבדרך כלל שמור לסטטיסטיקה של נתוני-ענק.

דרך חכמה יותר לקרוא אלפי תגובות

המחברים מתמקדים בגישה פופולרית במדעי החברה שנקראת ניתוח תמותי, שבה חוקרים קוראים טקסט ומחפשים דפוסים חוזרים או "תמות" שעונות על שאלות המחקר. באופן מסורתי, זה אומר קידוד איטי של כל תגובה ידנית ובניית מדריך קידוד — רשימה מובנית של תמות ותתי־תמות. תהליך זה יכול לעבוד היטב לכמה עשרות ראיונות, אך הוא הופך לעומס כאשר יש עשרות אלפי תשובות פתוחות. המאמר שואל: האם מודלי טקסט גנרטיביים זמינים בחופשיות וכלים בקוד פתוח יכולים לסייע בשלבים הראשוניים והחזרתיים של העבודה הזו מבלי להחליף את שיפוט האדם?

Figure 1
Figure 1.

הצגת תהליך GATOS

כדי לענות על השאלה הזו, המחברים מציגים את תהליך ארגון ומבנה תמות בעזרת בינה גנרטיבית (Generative AI-enabled Theme Organization and Structuring), או GATOS. התהליך מקשר ביחד כמה שלבים. ראשית, מודל שפה בקוד פתוח קורא תגובות בודדות וכותב נקודות סיכום קצרות וממוקדות של מה שכל אדם אומר. לאחר מכן, כלי נוסף ממיר את הסיכומים הללו לייצוגים מספריים כדי שמחשב יוכל להשוות ולקבץ רעיונות דומים. סיכומים אלה מצטברים למקבצים שסביר שישקפו תמות משותפות, כגון דאגות לגבי איזון בין עבודה לחיים או תסכולים מתקשורת לא ברורה.

לאפשר ל‑AI להציע, אך לא להציף, רעיונות חדשים

השלב החדשני ביותר מגיע כשהמערכת מתחילה לבנות טיוטת מדריך קידוד. עבור כל אשכול של סיכומים קשורים, מודל גנרטיבי נוסף בוחן את הרעיונות בקבוצה ואת הקודים שכבר נמצאים במדריך. הוא נשקל האם נדרש קוד חדש באמת, או האם הקודים הקיימים מספקים. אם עולה זווית חדשה — למשל, "כלי ועידת וידאו אמינים" כחשש ספציפי — הוא מציע תווית קצרה והגדרה, שמתווספת. אם לא, הוא בוחר להשתמש במה שכבר קיים. שלב סופי מקבץ קודים קשורים לתמות רחבות יותר, ויוצר מפת מבנה שמקשרת בין תגובות גולמיות לתובנות מסודרות. לאורך כל התהליך, ההדגשה היא על הימנעות מזרם של קודים כמעט-חופפים ובו־בזמן שימור ההבחנות העדינות בחוויות האנשים.

Figure 2
Figure 2.

בדיקת השיטה עם נתונים מדומים ריאליסטיים

מכיוון שלמחקרים אמיתיים לעתים נדירות יש "מפתח תשובות" ידוע מראש, הצוות בדק את GATOS בעזרת נתונים סינתטיים (נוצרו במחשב) שבהם התמות החבויות היו ידועות מראש. הם יצרו שלושה מאגרי נתונים גדולים, מציאותיים: משוב עמיתים על עבודה בצוות, דעות על תרבות אתית בארגון, ודעות על חזרה למשרד אחרי מגפת COVID‑19. עבור כל מאגר נתונים הגדירו תחילה שמונה תמות וכמה תתי־תמות, ואז השתמשו במודל שפה כדי לכתוב מאות תגובות מציאותיות מדמויות שונות, כגון חברי איגוד, מנהלים או סטודנטים. לאחר הרצת GATOS על מאגרי הנתונים הללו, מבקרי אדם השוו את התמות שיצר ה‑AI לתתי־התמות המקוריים והחבויים כדי לבדוק עד כמה הם תואמים.

כמה זה עבד, ומהם הפשרות?

בכל שלושת מקרי המבחן, התהליך השיב את מרבית תתי‑התמות המקוריים באופן די מדויק: הרוב כבד זכו לפחות להתאמה חזקה אחת, ורק מעטים יחסית נותרו ללא מקבילה טובה. באופן חשוב, כשהמערכת בוחנת יותר נתונים היא מציעה פחות קודים חדשים, מה שמעיד שהיא לומדת להשתמש ברעיונות קיימים במקום להמציא וריאציות אינסופיות. המחברים טוענים שסוג הגישה הקוד‑פתוח שניתן להריץ מקומית יכול להקל על חששות פרטיות ולהקל על קבוצות מחקר שונות לשחזר את עבודתן זו אצל זו. במקביל, הם מדגישים שנתונים סינתטיים פשוטים יותר מהרבה מצבים אמיתיים, שהתהליך עדיין יכול ליצור קודים חופפים, ושחוקרים אנושיים נדרשים עדיין כדי לחדד, לפרש ולהכריע במדריך הקידוד הסופי.

מה המשמעות עבור שאינם מומחים?

לקריאה מחוץ לאקדמיה, המסקנה היא כי בינה מלאכותית בקוד פתוח יכולה לעזור לחוקרי החברה ולאנשי מקצוע לשמוע הרבה יותר אנשים מבלי לצמצם את דבריהם למספרים גסים. במקום להחליף אנליסטים אנושיים, תהליך GATOS מתפקד כמו עוזר מהיר ומאורגן מאוד שמציע דפוסים ותוויות טיוטה, בעוד שהאדם מחליט מהי המשמעות האמיתית של הדפוסים האלה. אם מחקרים נוספים יאשרו תוצאות אלה על נתונים אמיתיים, כלים דוגמת GATOS יכולים להקל על קבלת מדיניות במקום העבודה, בתוכניות חינוך והחלטות ציבוריות על בסיס העושר המלא של מה שאנשים אומרים בפועל — ולא רק על בסיס תיבות בחירה בסקרי רב־ברירה.

ציטוט: Katz, A., Fleming, G.C. & Main, J.B. Thematic analysis with open-source generative AI and machine learning: a new method for inductive qualitative codebook development. Humanit Soc Sci Commun 13, 209 (2026). https://doi.org/10.1057/s41599-026-06508-5

מילות מפתח: ניתוח נתונים איכותניים, ניתוח תמותי, בינה מלאכותית גנרטיבית, מודלים לשוניים בקוד פתוח, שיטות מחקר במדעי החברה