Clear Sky Science · he
הערכת סיכון ההטיה בניסויים קליניים עם דגמי שפה גדולים ו-ROBUST-RCT: מחקר היתכנות
מדוע זה חשוב למטופלים ולרופאים
הרפואה המודרנית מסתמכת על ניסויים קליניים כדי לקבוע אילו טיפולים עובדים, אך גם מחקרים שעוצבו היטב עלולים להיות מטועים אם קיימת הטיה. בדיקה קפדנית של כל ניסוי לגילוי בעיות נסתרות היא עבודה איטית ומסובכת שיכולה לעכב עדכוני הנחיות רפואיות במשך שנים. במחקר זה נחקר האם דגמי שפה גדולים — מערכות בינה מלאכותית מתקדמות שמנתחות טקסט — יכולים לסייע לבני אדם לשפוט במהירות ובעקביות רבה יותר עד כמה ניתן לסמוך על ניסויים קליניים, באמצעות כלי חדש ופשוט יותר בשם ROBUST-RCT.
כיצד שופטים כיום את איכות הניסויים
ניסויים קליניים מכונים לעתים קרובות הסטנדרט הזהב, אך הם עדיין עלולים להיפגע מעיוותים בעיצוב, דיווח לקוי או ניתוח סלקטיבי. כדי לזהות בעיות אלה, מבקרים משתמשים לרוב בבדיקת Risk of Bias 2 (RoB 2) של Cochrane. למרות קפדנותה, RoB 2 ידועה ככוחעת זמן, קשה ליישום אפילו עבור מומחים, ומניבה הסכמות מתונות בלבד בין מבקרים שונים. במקביל, מספר המחקרים שמתפרסמים מדי שנה ממשיך לגדול, אך מספר המחקרים שיכנסו בסופו של דבר לסקירות שיטתיות לא מספק, ורבות מהסקירות כבר מיושנות בעת הפרסום. הפער ההולך וגדל הזה הגביר עניין בכלים קלים יותר לשימוש ובסיוע טכנולוגי מבוסס בינה מלאכותית.
כלי חדש ותפקיד לבינה מלאכותית
ROBUST-RCT הוא אלטרנטיבה שפותחה לאחרונה ל-RoB 2. במקום לנסות לתפוס כל מקור אפשרי להטיה, הוא מתמקד בשישה פריטים מרכזיים שהם גם נפוצים וגם מקושרים בחוזקה לעיוות בתוצאות הטיפול. הכלי עוצב על ידי אפידמיולוגים כדי לאזן בין פשטות לריגור מדעי, ונבדק לשימושיות על ידי מבקרים בתחילת דרכם. בגלל ש-ROBUST-RCT חדש ופחות מוכר מ-RoB 2, המחברים זיהו הזדמנות: לשלב את רשימת הבדיקה המצומצמת הזו עם דגמי שפה גדולים כדי לבדוק האם בינה מלאכותית יכולה לסייע באופן אמין בשיפוט הטיה לצד מבקרים אנושיים.

מה החוקרים בדקו בפועל
הצוות בחר באופן אקראי 20 ניסויי תרופות המאונדקסים ב-PubMed Central ואחרי השלמות הסתברו 9 ניסויים קליניים אקראיים לניתוח מפורט. שלושה חוקרים רפואיים בתחילת דרכם השתמשו באופן עצמאי במדריך ROBUST-RCT לדירוג התוצאים הראשיים של כל ניסוי, ואז פתרו מחלוקות בפגישות קונסנזוס. במקביל, ארבעה דגמי שפה גדולים שונים — GPT-4-turbo, Gemini 2.5 Pro Preview, DeepSeek-R1 ו-Qwen3-235B-A22B — קיבלו את קבצי ה-PDF המלאים של הניסויים יחד עם הנחייה מפורטת שלב אחר שלב כיצד ליישם את ROBUST-RCT. השאלה המרכזית הייתה: עד כמה דירוגי הסיום של כל בינה מלאכותית התאימו לקונסנזוס האנושי לאורך ששת הפריטים העיקריים של הכלי?
כמה התאימו הבינות האנושיות לאנושיים
כדי לכמת הסכמה השתמשו המחברים במדד הנקרא Gwet’s AC2, שמשפר על ציוני Kappa המוכרים ומתמודד טוב יותר עם דפוסי דירוג לא אחידים. ב-54 השוואות זוגיות בין אדם ל-AI, שלושה מתוך ארבעת המודלים הגיעו לפחות לעמידה של "מהימנות מתונה" בהשוואה הסתברותית, כלומר דירוגיהם היו לעתים קרובות דומים לקונסנזוס האנושי וחילוקי דעות גדולים היו יחסית נדירים. Gemini 2.5 Pro Preview הצטיין (AC2 = 0.69), אחריו Qwen3-235B-A22B (0.65) ו-GPT-4-turbo (0.60). DeepSeek-R1 היה החלש ביותר (0.46) ונוטה לדרג ניסויים כבעלי הטיה גבוהה יותר מאשר האנשים, יתכן משום שהסתמך על חילוץ טקסט בלבד ולא הצליח להשתמש במלואן בטבלאות ובאיורים. ראוי לציין שכאשר המחברים הסתכלו רק על המבקרים האנושיים לפני פגישות הדיון, ההסכמה ביניהם (Fleiss’ Kappa = 0.49) הייתה דומה למה שדווח עבור הכלי הישן RoB 2.

מה זה אומר עבור סקירות ראיות עתידיות
למרות גודל מדגם קטן, מחקר היתכנות זה מראה שמספר דגמי שפה גדולים נוכחיים יכולים להגיע לפחות להסכמה מתונה עם מבקרים אנושיים בעת יישום ROBUST-RCT, כלי פשוט יותר להערכת סיכון להטיה בניסויים קליניים. בפועל, מודלים כאלה עשויים בסופו של דבר לשמש כ"מבקר שלישי" לשבירת שוויון, לדגל שגיאות סבירות או לבצע סינון מקדים של מחקרים כדי שמומחים אנושיים יוכלו להתמקד במקרים המורכבים או השנויים במחלוקת. המחברים מדגישים שבינה מלאכותית לא תחליף את השיפוט האנושי וכי יש לטפל בנושאים אתיים — כגון פרטיות נתונים, אימון על חומרים המוגנים בזכויות יוצרים וסיכון להסתמכות יתר על כלים אוטומטיים. עם זאת, הממצאים מרמזים כי בקרה זהירה ומנוהלת של בינה מלאכותית יכולה לסייע לשמור על עדכניות הסקירות השיטתיות, ולאפשר לרופאים וללוחות הנחייה להשקיע פחות זמן בדירוג טכני ויותר זמן בפרשנות המשמעות של מכלול הראיות עבור טיפול בחולה.
ציטוט: Vidor, P.R., Casiraghi, Y., de Souza, A.M. et al. Assessing the risk of bias of clinical trials with large language models and ROBUST-RCT: a feasibility study. Sci Rep 16, 13723 (2026). https://doi.org/10.1038/s41598-026-44303-z
מילות מפתח: סיכון להטיה, ניסויים קליניים, סקירות שיטתיות, דגמי שפה גדולים, רפואה מבוססת ראיות