Clear Sky Science · he

הערכה רב‑מרכזית ורב‑תכליתית של מודלים שפתיים גדולים בפרשנות אודיוגרמות טון טהור עבור מטופלים

· חזרה לאינדקס

למה דוחות בדיקות שמיעה כל כך קשים להבנה

רבים יוצאים מבדיקת שמיעה עם גרף מלא נקודות וקווים, ולצדו רק תווך קצר מהרופא. עבור לא‑מומחים, דוחות אודיוגרמת הטון הטהור כמעט בלתי ניתנים לפענוח, אך הם משפיעים על החלטות שמשנות חיים—כגון התאמת מכשירי שמיעה, טיפולים ותקשורת יומיומית. המחקר הזה בוחן האם צ'אטבוטים מודרניים מבוססי מודלים שפתיים גדולים יכולים להפוך את הגרפים הטכניים הללו להסברים ברורים ומרגיעים עבור מטופלים רגילים.

הפיכת גרפים אוזניים מורכבים לשפה פשוטה

אודיוגרמות טון טהור הן מבחן הסטנדרט הזהב למדידת יכולת השמיעה בתדרים שונים, מרעידות נמוכות ועד צלילים גבוהים. הדוח הנוצר נראה יותר כמו ניסוי בפיזיקה מאשר סיכום בריאות. באותו זמן, מומחי שמיעה מיומנים נמצאים במחסור ברחבי העולם, במיוחד באזורים עם משאבים רפואיים מצומצמים. החוקרים ראו הזדמנות: אם צ'אטבוטים יכלו "לקרוא" את הגרפים הללו ולהסביר את התוצאות בשפה יומיומית, הם עשויים לעזור למטופלים להבין את מצב שמיעתם מוקדם ובהיקף רחב יותר, ולתמוך במטרה של ארגון הבריאות העולמי "בריאות שמיעה לכולם".

Figure 1
Figure 1.

בדיקת מספר צ'אטבוטים

הצוות אסף 140 דוחות בדיקות שמיעה אמיתיים משני מרכזים בסין, הסיר פרטים אישיים ויצר גרסאות סטנדרטיות של גרפי האודיוגרמות. לאחר מכן ביקשו משמונה מודלים שפתיים גדולים שונים, מחברות בסין ובארצות הברית, לבצע שלוש משימות עבור כל דוח: לציין עד כמה חמור אובדן השמיעה ומה סוגו (למשל, קשור לאוזן פנימית או חיצונית), להסביר את הממצאים בשפה ידידותית למטופל, ולהציע המלצות מעשיות כגון מתי לפנות לטיפול או לשקול מכשירי שמיעה. כל הפלטים מהמודלים נאספו בהגדרות מבוקרות והוערכו מאוחר יותר על ידי קלינאים מנוסים ומתנדבים אזרחיים נפרדים שלא ידעו איזה מודל יצר כל תשובה.

כמה טוב המכונות אבחנו אובדן שמיעה

כאשר נדרשו להתנהג כמו מומחה שמיעה וירטואלי, ביצועי המודלים היו מעורבים. המערכת עם הביצועים הטובים ביותר, DeepSeek‑V3, שפטה נכון את חומרת אובדן השמיעה כמעט בשני שלישים מהמקרים וזיהתה את סוג האובדן באופן כללי קצת יותר מחצי מהזמן. מודלים אחרים לעיתים ביצעו גרוע יותר, והדיוק הכולל נשאר רחוק מרמת הציפייה ממומחים מוכשרים. החוקרים גם בדקו דרכים חלופיות להזנת המידע למודלים, למשל הוספת מספרים מובנים יחד עם תמונות הגרף. שינויים אלה שיפרו את הדיוק ברוב המערכות, מה שמרמז שצורת הצגת המידע יכולה להיות חשובה לא פחות מעוצמת המודל עצמו.

הסברים מועילים, אך פרטים מתוחכמים מטרידים

מעבר לדיוק הגולמי, המחקר בדק עד כמה ההסברים של הצ'אטבוטים היו קריאים ומהימנים. חלק מהמודלים ייצרו תגובות ארוכות ומילוּלות, בעוד שאחרים היו תמציתיים יותר. רק דגמי DeepSeek כתבו בעקביות ברמת קריאה המתאימה בקירוב למי שיש לו חינוך ברמת חטיבת ביניים, בהתאם להנחיות בריאותיות מארגונים רפואיים מרכזיים. עם זאת, מספר מערכות הראו נטייה מדאיגה להולוצינציות — המצאות פרטים שלא היו בדוחות המקוריים. בכ‑כמעט אחת מתוך ארבע תגובות של חלק מהמודלים, הצ'אטבוט המציא מספרים, ציין באופן שגוי ספי שמיעה או המליץ על מכשירים לא קיימים ונתיבי טיפול לא מציאותיים. לעומת זאת, דגם Gemini אחד הציג פחות הולוצינציות, אף על פי שדיוקו הרפואי לא היה הגבוה ביותר.

Figure 2
Figure 2.

מה חשבו מומחים ומשתמשים יום‑יומיים

קלינאים דירגו את המודלים לפי מידת הדיוק, המלאות והשימושיות המעשית של תשובותיהם. גם כאן, DeepSeek‑V3 ודגם האח שלו דירגו בדרך כלל גבוה ביותר עבור איכות מקצועית, והעניקו פרשנויות מובנות והמלצות ממוקדות התואמות לפרקטיקה קלינית. עם זאת, כאשר ציבור המשתמשים הדירג את אותן תשובות, העדיפויות השתנו. לא־מומחים נטו להעדיף מודלים שהיו קלים יותר למעקב, שיחיים יותר ותומכים רגשית, גם אם אלה לא היו המדויקים ביותר מבחינה רפואית. דגמי Gemini הצטיינו במיוחד בבהירות, באמפתיה ובשביעות רצון כללית, מה שמדגיש מתיחות בין סטנדרטים מקצועיים נוקשים לבין צרכי תקשורת שמעמידים את המטופל במרכז.

מדוע זה חשוב לאנשים עם בעיות שמיעה

אובדן שמיעה נפוץ, ורבים לא מקבלים הסבר ברור על תוצאות הבדיקה שלהם. המחקר מראה שצ'אטבוטים של היום אינם מוכנים להחליף אודיולוגים או לבצע אבחנות עצמאיות על סמך גרפי שמיעה. שיעורי השגיאה והפרטים הממציאים לעיתים עלולים להטעות מטופלים אם ישתמשו בהם ללא פיקוח. באותו זמן, למודלים כבר יש יתרונות ממשיים: הם ממירים גרפים צפופים לשפה פשוטה, מציעים הדרכה ראשונית ומפחיתים חרדה אצל אנשים שאולי אין להם למי לפנות. בשימוש זהיר, עם אזהרות ברורות ותחת פיקוח מומחי שמיעה, כלים כאלה עשויים להפוך לעוזרים בעלי ערך שיעזרו לגשר על פערי גישה לטיפול, לשפר הבנה ולתמוך בפעולה מוקדמת בתחום בריאות השמיעה.

ציטוט: Liang, J., Xing, M., Xiang, P. et al. A multicenter multifunctional assessment of large language models in pure-tone audiogram interpretation for patients. npj Digit. Med. 9, 348 (2026). https://doi.org/10.1038/s41746-026-02537-1

מילות מפתח: אובדן שמיעה, אודיוגרמת טון טהור, מודלים שפתיים גדולים, תקשורת עם מטופל, בריאות דיגיטלית