Clear Sky Science · he

השוואת הסכמה בין מודלים שפתיים גדולים ומסקנות ניסויי קליניים מפורסמים בארבע פלטפורמות בינה מלאכותית

2026-04-02 · חזרה לאינדקס

מדוע זה חשוב לטיפול יום-יומי בבריאות

רופאים נסמכים על ניסויים קליניים גדולים כדי להחליט אילו טיפולים בטוחים ויעילים. במקביל, כלים חדשים של בינה מלאכותית משתפרים ביכולת לקרוא ולסכם מחקר רפואי. מחקר זה שואל שאלה פשוטה אך חשובה לחולים ולמטפלים: כאשר כלים אלה קוראים את אותם ניסויים כמו מומחים אנושיים, האם הם מגיעים לאותן מסקנות סופיות לגבי מה עובד ומה לא?

כיצד החוקרים בחנו את כלי ה-AI

הצוות התרכז ב-20 ניסויים קליניים מוכרים שפורסמו ב-New England Journal of Medicine, העוסקים במחלות לב, שבץ, סוכרת, סרטן וניתוחי מוח. ניסויים אלה נבחרו משום שהם תוכננו בקפידה ודווחו בצורה ברורה, מה שהופך אותם לשדה מבחן חזק. במקום להזין את המאמרים המלאים למערכות ה-AI, החוקרים סיפקו רק את הטבלאות והאיורים שהכילו את המספרים, כגון שיעורי אירועים וגרפים של תוצאות. בכך הוכרחו הכלים להישען על הנתונים עצמם במקום לשחזר בקצרה את הסיכומים הכתובים של המחברים.

Figure 1. כיצד כלים שונים של בינה מלאכותית קוראים את אותם ניסויים רפואיים ומתיישרים עם מסקנות הרופאים.

מה נתבקשו מערכות ה-AI לעשות

נבדקו ארבעה מודלים שפתיים נפוצים: ChatGPT, Gemini, Grok3 ו-Claude. כל מודל קיבל את אותו פרומפט מוסדר, שביקש ממנו לפרש את הנתונים בחמישה אופנים. המודלים נדרשו להסביר את הממצאים הכוללים, לפרש את הסטטיסטיקה, לקשר את התוצאות לטיפול בחולים, להצביע על מגבלות המחקר, ולהציע כיצד הממצאים עשויים להיות מיושמים בפרקטיקה. שני אנליסטים מאומנים השוו אז כל תשובת AI למאמר הניסוי המקורי ונתנו ציונים בכל אחד מחמישה תחומים אלה על סולם מאפס עד חמש.

כמה טוב ה-AI התאימו למסקנות האנושיות

ChatGPT הראה את ההסכמה החזקה ביותר עם מסקנות הניסויים שפורסמו, והשיג ציון חציוני מושלם של 25 מתוך 25 ב-20 הניסויים. Gemini עקב אחריו עם 21 מתוך 25, בעוד Grok3 ו-Claude הפסידו עם ציונים חציוניים של 18 ו-17 בהתאמה. כל ארבעת הכלים הציגו את הביצועים הטובים ביותר בתיאור מדוע התוצאות חשובות לחולים, ובפרט ChatGPT קיבל את הציון המוביל בכל תחום. Gemini גם הצליח לזהות נקודות תורפה במחקרים וגורמים מבלבלים פוטנציאליים, בעוד Grok3 ו-Claude היו פחות אמינים בזיהוי מגבלות ומתן המלצות טיפול פרקטיות. שני המדרגים האנושיים הסכימו זה עם זה ברמת דיוק גבוהה, מה שמרמז שהשיטה להענקת הציונים הייתה יציבה.

Figure 2. הצגה שלב-אחר-שלב של האופן שבו בינה מלאכותית הופכת מספרים מניסויים להערכות על טיפולים ומגבלותיהם.

אזהרה לגבי אימון מוסתר ובטיחות בעולם האמיתי

על אף שהמספרים נראים מרשימים, המחברים מזהירים שיש לפרש את התוצאות בזהירות. הניסויים שבהם השתמשו הם מפורסמים וסביר להניח שהופיעו בנתוני האימון של מערכות ה-AI הללו. משמעות הדבר היא שהכלים עשויים כבר "להכיר" את המחקרים הללו ויכולים לשחזר דפוסים שהם כבר ראו במקום להסיק מסקנות באופן עצמאי רק מהטבלאות שסופקו. העובדה שהמדרגים ידעו איזו מערכת הפיקה כל תשובה גם משאירה מקום להטיה אנושית עדינה בציונים. בנוסף, הניסויים הנבחרים היו ברובם עם ממצאים ברורים וחיוביים, המייצגים תרחיש אידיאלי יותר מאשר המחקרים המבהילים והלא ודאיים שלעיתים מעצבים החלטות במציאות.

מה משמעות הדבר לטיפול בעתיד

עבור קורא שאינו מומחה, המסקנה היא שכמה כלים של בינה מלאכותית, ובמיוחד ChatGPT ו-Gemini, יכולים לעתים קרובות לקרוא נתוני ניסויים רפואיים ולהסכים עם מסקנות המומחים, לפחות לגבי מחקרים ידועים ואיכותיים. זה מרמז שהם עשויים לשמש כסייעים מועילים לסיכום מחקר מורכב ולארגון עדויות, אך הם אינם מוכנים להחליף רופאים או חוקרים. היסטוריית האימון שלהם אינה שקופה, ביצועיהם משתנים בין פלטפורמות, ותשובותיהם לא הוכחו כבטוחות לקבלת החלטות טיפוליות ישירות. המחברים טוענים כי יש לראות ב-AI עוזר עוצמתי שיכול לסרוק מספרים ולהבליט דפוסים, בעוד שהקלינאים האנושיים נשארים אחראים על השיפוט, האמפתיה והבחירה הסופית בנוגע לטיפול בחולה.

ציטוט: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

מילות מפתח: מודלים שפתיים גדולים, ניסויים קליניים, בינה מלאכותית רפואית, סינתזת עדויות, תמיכה בהחלטות קליניות