Clear Sky Science · he

הערכת קריאות טקסט אוטומטית לתוכן חינוכי בהתבסס על למידת ייצוגים בגרפים

· חזרה לאינדקס

מדוע זה חשוב למורים וללומדים

כשמורים בוחרים קטע קריאה הם מתמודדים עם איזון עדין: הטקסט חייב להיות מאתגר מספיק כדי לקדם התפתחות, אך לא כל כך קשה שהתלמידים יוותרו. מאמר זה מציג שיטה חדשה בבינה מלאכותית היכולה להעריך כמה קשה לקרוא קטע, במיוחד בחומרים חינוכיים. על ידי התבוננות שמעבר לספירות פשוטות של מילים ומשפטים ולהבנה של המבנה העמוק יותר של השפה, המערכת שואפת להתאים באופן מדויק יותר את הטקסט לקורא הנכון מאשר נוסחאות הקריאות המסורתיות.

מגבלות ציון הקריאות הישן

עשרות שנים בתי ספר נשענים על נוסחאות כמו Flesch–Kincaid המשתמשות ברמזים שטחיים—כמו אורך משפט ומניין ההברות—כדי לשפוט קושי. שיטות אלה קלות לחישוב אך עיוורות להיבטים רבים של מורכבות מציאותית. פסקה מדעית קצרה המלאה במונחים טכניים או משפט בעל מבנה מסובך עדיין עלולים להתוייגו כ"קל" משום שמיליו קצרים ומשפטיו תמציתיים. כתוצאה מכך, מורים עלולים להקצות בטעות חומר צפוף מדי עבור תלמידים מסוימים או פשוט מדי לאחרים, במיוחד בנושאים עשירי תוכן כמו מדע ומדעי החברה.

להסתכל בתוך המשפט

המחברים מציעים גישה שונה המטפלת בכל משפט כרשת. כל מילה הופכת לנקודה (או צומת), והקישורים הדקדוקיים בין מילים—כמו נושא–פועל או פועל–מושא—הופכים לקשרים (קצוות). קריטי שהעוצמה של כל קשר תלויה לא רק במרחק במשפט אלא גם בסוג המילים שנמצאות ביניהן. מרחק ארוך המלא במילות תוכן כגון שמות עצם, פעלים ותארים מרמז על קפיצה מנטלית תובענית; מסלול קצר יותר או כזה שמכיל בעיקר מילים פונקציונליות קטנות מרמז על שלב קל יותר. מחקרים בפסיכולינגוויסטיקה מראים כי עקיפות ארוכות העשירות במילות תוכן מעמיסות על זיכרון העבודה ומאטות את ההבנה, ולכן המודל משתמש בהן כאותות לקושי גבוה יותר.

Figure 1
Figure 1.

ללמד רשת לקרוא את הרשת

כדי לממש את רעיון המשפט-כגרף, המחקר משתמש בסוג של רשת עצבית המותאמת לגרפים, שנקראת Graph Convolutional Network. לפני שהמודל הגרפי פועל, מנוע בינה מלאכותית נוסף (בדומה למערכות נפוצות כמו BERT) יוצר ייצוג מספרי עשיר של כל מילה המשקף את משמעותה בהקשר. רשת הגרף מעבירה אז מידע דרך הקשרים בין המילים, וממזגת משמעות ומבנה לייצוג סכמתי אחד של הקטע כולו. סיכום זה מוזן לשכבה סופית המפיקה ציון קריאות רציף במקום סל דרגתי פשוט, מה שמאפשר הבחנות עדינות יותר בין טקסטים.

כדי למקסם את ביצועי המערכת, המחברים משתמשים באופטימיזציה בייסיאנית, אסטרטגיה שמחפשת באופן אוטומטי הגדרות טובות של רבים מה"כפתורים" בבת אחת. אלה כוללים עד כמה חלקי דיבר שונים צריכים להשפיע על חוזק הקשר, כמה שכבות גרף להשתמש וכמה מהיר על המודל ללמוד. במקום לכוונן ידנית בחירות אלו, הליך האופטימיזציה בוחן ומחדד אותן באופן שיטתי בהתבסס על תוצאות אימות.

Figure 2
Figure 2.

כמה זה עובד בפועל

המודל נבחן על קבוצת הנתונים CLEAR, אוסף גדול של כ־5,000 קטעים קצרים עם ציוני קריאות שהוקצו על ידי מומחים ודירוגי תוכן בסגנון סרטים (G, PG, PG-13 ו‑R). באמצעות סכמת אימות צולב קפדנית, המערכת מסבירה כ־97% מהשונות בציונים אלה, רמת דיוק שעולה על שיטות קלאסיות מבוססות תכונות ועל קווי בסיס מודרניים חזקים המבוססים רק על מודלים טרנספורמריים. השיטה גם מתפקדת היטב כאשר מוחלת על מאגר נתונים בפרסית שנבנה במקור למיון טקסטים לרמות קל, בינוני וקשה: קטעים באותה קבוצת קושי נוטים לקבל ציונים חזויים דומים, מה שמרמז שהדברים שהמודל לומד לגבי מבנה באנגלית מועברים לשפה אחרת.

מה זה אומר לכיתות הלימוד

לעוסקים בחינוך ולעורכי תכניות לימוד, המסקנה העיקרית היא שקריאות היא יותר מאשר מילים ארוכות ומשפטים ארוכים. האופן שבו המידע נשזר בתוך משפט—מספר העקיפות וסוגי המילים שמעטרות אותן—משפיע רבות על קלות המעקב של התלמידים. על ידי מיצוג טקסטים כרשתות של מילים מחוברות ושימוש בבינה מלאכותית מבוססת גרפים כדי לקרוא את הרשתות האלה, המחקר מציע כלי מדויק וגמיש יותר להערכת קושי קריאה. אף שהשיטה אינה מחליפה שיפוט אנושי או לוקחת בחשבון כל ניואנס בספרות ובפרוזה של מדעי החברה, היא יכולה לשמש כסיוע החלטה חזק, המסייע למורים לבחור ולהתאים טקסטים שמתאימים יותר לכישורי תלמידיהם ותומכים בלמידה שוויונית יותר.

ציטוט: Zhang, L., Abhani, J., B, J. et al. Automatic text readability assessment for educational content based on graph representation learning. Sci Rep 16, 11308 (2026). https://doi.org/10.1038/s41598-026-41313-9

מילות מפתח: הערכת קריאות, טקסטים חינוכיים, רשתות עצביות גרפיות, עיבוד שפה טבעית, קושי טקסט