Clear Sky Science · he
בינה אנושית מול בינה מלאכותית באבחון פתולוגיה אורלית: מחקר השוואתי של ChatGPT, Grok ו‑MANUS
מדוע זה חשוב לביקור השיניים הבא שלכם
כאשר רופא שיניים מוצא נקודה חשודה בפה, המילה האחרונה על כך שהמצב תמוה או מסוכן בדרך‑כלל באה ממומחה הבוחן רקמות במיקרוסקופ. עבודה זו מדויקת, גוזלת זמן, ובאזורים רבים בעולם אין מספיק מומחים. המחקר הזה שואל שאלה עכשווית: האם מערכות בינה מלאכותית מודרניות יכולות לסייע בקריאת תמונות מיקרוסקופיות של רקמות הפה בדיוק הקרוב לזה של מומחים אנושיים, כך שהאבחנה תהיה מהירה יותר, עקבית יותר וזמינה יותר?

מה החוקרים ביקשו לבחון
הצוות התמקד בשלוש תוכניות מתקדמות המוכרות ביכולתם להבין תמונות וטקסט: ChatGPT, Grok ומערכת רפואית שנקראת MANUS. במקום להשתמש בנתוני מטופלים אמיתיים, הם נשענו על 100 תמונות מיקרוסקופיות ברורות ובעלות איכות גבוהה מתוך ספר לימוד סטנדרטי של מחלות הפה. כל תמונה הציגה סוג שונה של פגיעה, החל משינויים פרה‑סרטניים מוקדמים ועד גידולים, ציסטות וצמיחות ריאקטיביות. שני פתולוגים אורליים מיומנים קבעו תחילה את האבחנה הנכונה לכל פרוסה, ובכך יצרו סטנדרט אנושי חזק להשוואה מול המכונות.
כיצד התבצעה ההשוואה ישירה
כל אחת מ‑100 הפרוסות הוצגה לשלוש מערכות ה‑AI באמצעות אותו הודעה קצרה שתיארה את המקרה ואותה תמונה דיגיטלית. המודלים התבקשו לציין את האבחנה הסבירה ביותר, בדיוק כפי שמומחה היה עושה בעת ניסוח דוח. כדי לבדוק האם המערכות נתנו תשובות יציבות לאורך זמן, החוקרים חזרו על כל התהליך שוב אחרי שבועיים עם אותן פרוסות והוראות. בינתיים, שני הפתולוגים הקריאו את הפרוסות באופן עצמאי מבלי לראות את פלט ה‑AI, ואז דנו בכל הבדלים עד שהגיעו להסכמה סופית. החלטות המומחים הללו טופלו כתשובה הטובה ביותר הזמינה.

כיצד הופיעו המכונות והאנשים
כל שלוש כלי ה‑AI הופיעו בביצועים מרשימים. בסבב הבדיקה השני, Grok זיהה נכונה 97 מתוך 100 מקרים, MANUS 96 ו‑ChatGPT 94. זוג המומחים האנושיים קיבל ציון מעט גבוה יותר, עם 98 פרוסות מסווגות נכון. ChatGPT התבלט בכך שנתן כמעט את אותן התשובות בשני הסבבים, והראה עקביות פנימית חזקה, בעוד ש‑MANUS ו‑Grok אף הם הראו ביצועים יציבים ומוצקים. כאשר השוו בין המערכות זו לזו, הן הסכימו ברובן המכרעת של המקרים, דבר המרמז שעיצובים שונים של AI יכולים להגיע לשיפוטים דומים כאשר מקבלים אותן תמונות איכותיות.
עד כמה ה‑AI התיישב עם חשיבת המומחים
התאמה לתשובה הנכונה היא רק חלק מהסיפור; גם חשוב האם המחשבים נוטים להסכים עם דפוסי ההיסק של בני האדם. כאן MANUS הראה את ההתאמה הקרובה ביותר להחלטות הפתולוגים, גם כאשר לא עלה על Grok בדיוק הגולמי. Grok, אף שהיה מעט מדויק יותר בסך‑הכל, לפעמים הגיע לבחירות שונות מהמומחים במקרים הקשים הבודדים. רוב השגיאות בכל שלוש המערכות התעוררו בפרוסות שהיו מבלבלות עד לעין מיומנת, כאשר שינויים ברקמה חופפים או נראים ביניים בין שתי תחלואות. עם זאת, לא נרשמו פערי ביצועים משמעותיים בין המודלים, וכולן הראו רמות הסכמה עם בני האדם שתוארו על‑ידי המחברים כממוצעות עד מהותיות.
מה זה עשוי להצביע על עתיד הטיפול
המחקר מציע שמערכות AI מולטימודליות של היום כבר מסוגלות לשמש כעוזרות אמינות באבחון מיקרוסקופי של מחלות הפה. הן אינן תחליף לפתולוגים, שלמרות זאת שמרו על הדיוק הכולל הטוב ביותר ומספקים שיקול קליני חיוני, אך הן יכולות לפעול כקורא שני מהיר, לתמוך בהכשרת מומחים חדשים או להציע סיוע ברמת מומחה באזורים עם גישה מוגבלת לשירותי פתולוגיה דנטלית. מכיוון שהמחקר השתמש בתמונות ספרות מקצועיות שנבחרו בקפידה ולא בדגימות קליניות מבולגנות מהעולם האמיתי, המחברים מדגישים כי יש צורך בבדיקות נוספות על אוספים קליניים גדולים ומגוונים יותר ולצד מידע נוסף על המטופלים. אם בדיקות אלה יאשרו את ההבטחה הראשונית, ה‑AI עשוי להפוך את אבחון מחלות הפה ליותר מדויק, עקבי ונגיש למטופלים בכל מקום.
ציטוט: Alshammari, A.F., Madfa, A.A. & Anazi, B.A. Human versus artificial intelligence in oral pathology diagnosis: a comparative study of ChatGPT, Grok, and MANUS. Sci Rep 16, 11057 (2026). https://doi.org/10.1038/s41598-026-40792-0
מילות מפתח: פתולוגיה אורלית, פתולוגיה דיגיטלית, בינה מלאכותית, מודלים לשוניים גדולים, אבחון היסטופתולוגי