Clear Sky Science · he
בינה מלאכותית בכיתה: דגמי שפה גדולים כמורים לפי כיתה
עזרה בהוראה משותף דיגיטלי
מסביב לעולם, מיליוני ילדים הולכים לבית ספר ללא מספיק מורים מוסמכים, ואף בכיתות עם משאבים טובים קשה לתת לכל תלמיד הסברים שמתאימים באמת לגילו ולרמת הקריאה שלו. מחקר זה בוחן האם בינה מלאכותית מודרנית, ובמיוחד דגמי שפה גדולים, ניתן להפוך ל"מורים לפי כיתה" שמדברים באופן שונה מאוד עם ילד בכיתה א' מאשר עם סטודנט, ועדיין שומרים על נכונות העובדות.

מדוע התאמת מילים לגיל חשובה
הוראה טובה אינה רק לדעת את התשובה הנכונה, אלא לומר אותה כך שהתלמיד יבין. צ'אטבוטים של היום יכולים לפתור בעיות רבות, אך לעתים קרובות הם משיבים בשפה שהינה מתקדמת מדי, גם כשמבקשים "להסביר לילד בכיתה ג'". מחקרים קודמים בדקו בעיקר טריקים פשוטים של פרומפטים וגילו שהם לא מספיקים, במיוחד לקוראים צעירים יותר. המחברים טוענים שאם בינה מלאכותית אמורה לתמוך בלמידה בצורה הוגנת ברחבי העולם, היא חייבת להפיק באופן מהימן הסברים ברורים ומתאימים לגיל במגוון רחב של מקצועות ושאלות, ולא רק לשכתב או לקצר טקסטים קיימים.
בניית סולם לטקסטים קלים וקשים
כדי להתמודד עם זה, החוקרים נזקקו תחילה לשיטה אמינה לשפוט עד כמה כתיבה קשה לקריאה. במקום להסתמך על מדד יחיד, הם שילבו שבע נוסחאות קריאות קלאסיות שמודדות דברים כמו אורך המשפטים, אורך המילים וכמה "מילים קשות" משולבות. הם קיבצו את הנוסחאות לפי המוקדים שלהן ואז יצרו תכנית הצבעה משולבת שמקצה לכל תשובה אחד משישה סגמנטים: יסוד נמוך, יסוד אמצעי, יסוד עליון, חטיבה, תיכון ובוגר/מכללה. מערכת התיקול העשירה הזו יכולה לזהות הבדלים עדינים במורכבות שמדד יחיד עלול להחמיץ.
אימון בינה לדיבור בשישה סגנונות שונים
מצוידים בסולם רמת הקריאה הזה, הצוות יצר מאגר נתונים סינתטי גדול. באמצעות מספר דגמי שפה מתקדמים הם ניסחו אלפי שאלות פתוחות ב‑54 מקצועות לימוד, ממדעים ובריאות ועד ספרות ומדעי החברה. עבור כל שאלה הם דרשו מהמודל להפיק תשובות רבות שונות, כשהם משנים את רמת הכיתה המיועדת ואורך המשפטים. כלי הקריאות המשולב שלהם סווג אז כל תשובה לפי סל רמת כיתה אמיתי. זוגות שאלות‑תשובות מתוייגים אלו שימשו חומר אימון לכוונון עדין של שישה גרסאות נפרדות של מודל הבינה, כל אחת מופנית לקבוצת כיתה ספציפית, כך שהמודל של "יסוד נמוך" משתמש באופן טבעי במשפטים קצרים ומילים פשוטות, בעוד שמודל "בוגר" מציע הסברים ארוכים ומפורטים יותר.

עד כמה המורים לפי כיתה עמדו במבחן
המחברים בדקו את המודלים שלהם על מספר מערכי שאלות אמיתיים וסינתטיים. הם מדדו "התאמה" — כלומר כמה פעמים תשובה אכן נחתה ברמת הכיתה המיועדת — ו"דיוק" — כלומר האם התשובה נכונה מהבחינה העובדתית ורלוונטית. בהשוואה לגישות שמסתמכות רק על פרומפטים פשוטים, המודלים שעברו כוונון עדין שיפרו את אחוזי ההצלחה ברמת הכיתה בכ־36 נקודות אחוז בממוצע, במיוחד עבור הקבוצה שהייתה הקשה ביותר להגיע אליה: תלמידי היסוד. באופן חשוב, התאמה זו לא פגעה באופן משמעותי בדיוק בשאלות מדעיות. סקר עם 208 משתתפים אנושיים, בנוסף לבדיקות עם שופט בינה מלאכותית נוסף, הראה הסכמה רחבה שהתשובות מהמודלים השונים אכן הפכו מורכבות ומסובכות יותר ככל שרמת הכיתה עלתה.
מה המשמעות לכיתות ולתלמידים
המחקר מסכם שדגמי שפה גדולים ניתן לעצב מחדש לעוזרים מהימנים המודעים לרמת כיתה, שמותאמים את ניסוחם ליכולות הקריאה של התלמידים תוך שמירה על נכונות ההסברים. זה עדיין לא פותר את הבעיה העמוקה של האם ילד צעיר יכול לתפוס רעיונות מאוד מופשטים, אבל זה צעד משמעותי לעבר כלים של בינה מלאכותית שפוגשים את הלומדים במקום שבו הם נמצאים. אם יפותחו ויופעלו בזהירות, מורים דיגיטליים כאלה לפי כיתה יכולים להרחיב את טווח ההשפעה של הוראה מיומנת, לתמוך במורים העמוסים ולהביא הסברים ברורים לתלמידים שאין להם כיום גישה להוראה איכותית.
ציטוט: Oh, J., Whang, S.E., Evans, J. et al. Classroom AI: large language models as grade-specific teachers. npj Artif. Intell. 2, 28 (2026). https://doi.org/10.1038/s44387-026-00081-7
מילות מפתח: הדרכת בינה מלאכותית, קריאות לפי רמת כיתה, טכנולוגיה חינוכית, דגמי שפה גדולים, למידה מותאמת אישית