Clear Sky Science · he
הרחבת מדע הרגולציה של מכשירים רפואיים באמצעות דגמי שפה גדולים
מדוע זה חשוב לחולים ולרופאים
הרפואה המודרנית מתמלאת במהירות במכשירים "חכמים" המשתמשים בבינה מלאכותית לקריאת הדמיות, מעקב אחר סימנים חיוניים וסיוע בקבלת החלטות רפואיות. בארצות הברית לבדה כבר אושרו או נמסרו לידי שימוש למעלה מאלף כלים כאלה על ידי מנהל המזון והתרופות (FDA). כל מכשיר מותיר עקבות של דוחות מורכבים ורשומות בטיחות. כיום רוב המידע הזה עוד מנותח ידנית, תהליך איטי ויקר שבקלות מפגר אחרי המציאות. המאמר הזה בוחן האם דגמי שפה גדולים—אותם סוגי בינה מלאכותית שמניעים צ’אטבוטים מתקדמים—יכולים לקרוא את המסמכים האלה בקנה מידה גדול באופן אמין ולהפוך אותם לנתונים שימושיים שיעזרו לרגולטורים, לחוקרים ולציבור להבין עד כמה המכשירים הללו בנויים היטב וכיצד הם פועלים בבטחה.

הבעיה של יתר מסמכים מורכבים
כל מכשיר רפואי המונע ב-AI מגיע עם סיכומי החלטות עבים, דוחות בטיחות והודעות על משיכות. המסמכים הללו ארוכים, כתובים ביורוש מסובך ולעתים כוללים טבלאות, תמונות ועימוד לא אחיד. מחקרים קודמים הראו שהתשובה לשאלות בסיסיות—כמו כיצד המכשיר נבדק לפני האישור, או מה בדיוק השתבש כשהוא התקלע לבעיה—דרשה צוותים של מומחים שקראו מאות קבצי PDF שורה אחרי שורה. כלים פשוטים לחיפוש והתאמת דפוסים מצליחים למצוא פרטים ברורים כמו מספרי זיהוי, אך מתקשים עם שאלות עמוקות שדורשות שיפוט, כמו האם המחקר נערך במספר בתי חולים או האם המכשיר אכן תרם לפגיעה או למוות של מטופל. ככל שמספר המכשירים המופעלים ב‑AI גדל בפערים, הגישה הידנית הזו הפכה לבלתי אפשרית להתמודדות עמה.
צינור בינה מלאכותית שקורא כמו מומחה
המחברים בנו צינור כללי המבוסס על דגם שפה גדול ומתקדם כדי להתמודד עם האתגר הזה. ראשית, הם אספו את כל סיכומי ההחלטות ודוחות הבטיחות הזמינים לציבור של ה‑FDA עבור 1,247 מכשירי AI או למידת מכונה ו‑1,852 דוחות אירועים שליליים קשורים עד אמצע 2025, ניקו את קבצי ה‑PDF והשתמשו בזיהוי תווים אופטי כשנדרש. לאחר מכן, במקום לבקש מהדגם לענות על שאלות רחבות בפעם אחת, הם חילקו את העבודה לתת‑משימות קטנות ומוגדרות היטב. עבור כל סוג מסמך, הדגם קיבל הוראות מפורטות המבוססות על הנחיות רשמיות של ה‑FDA וכן דוגמאות לאופן שבו בני אדם יסמנו מידע. מבוקש מהדגם להסקת מסקנות שלב אחר שלב ולפלט תשובות בפורמט מוקפד ומובנה, הממיר טקסט חופשי לשדות ברורים כגון "מספר אתרי המחקר", "סוג אירוע בטיחות" או "סוג שינוי במכשיר".
בדיקת הדיוק בשאלות רגולטוריות אמיתיות
כדי לבדוק האם מערכת זו ניתנת לאמון, הצוות הריץ שלוש תצפיות מקרה שבהן חוקרים קודמים כבר בילו חודשים בבדיקה ידנית. ראשית, הם חזרו לבדוק כיצד מכשירים נבדקים לפני אישור על ידי בירור האם הניסויים הוחזקו פרוספקטיבית (איסוף נתונים קדימה בזמן) והאם כללו מספר בתי חולים. בהשוואת פלטי הדגם לתוויות מומחים, הם מצאו שיעורי הסכמה שלעיתים עלו על 80–90 אחוז, בקנה אחד עם ההסכמה בין מתויגים אנושיים בעצמם. שנית, הם השתמשו בדגם כדי לתייג מחדש דוחות בטיחות המתארים תקלות, פגיעות או מקרי מוות ולסווג מה בדיוק השתבש במכשיר. כאשר מבקרים אנושיים השוו את הקוד המקורי של היצרן עם אלה שהציע הדגם—מבלי לדעת מי הציע מה—הם העדיפו את בחירות הדגם ברוב גדול מהמקרים, במיוחד עבור קטגוריות רגישות כמו מוות לעומת תקלה. שלישית, החוקרים קישרו פרטים מתוך מסמכי האישור המוקדמים לדוחות בטיחות מאוחרים יותר כדי לחקור אילו בחירות מוקדמות—כמו בחירת מכשיר קודם עם משיכות קודמות או ביצוע שינויים חומרתיים משמעותיים—התקשרו סטטיסטית לסיכון גבוה יותר של בעיות עתידיות.

מה הממצאים חושפים על בטיחות ופיקוח
לאחר אימות, הצינור איפשר לצוות להרחיב את הניתוחים הללו מעשרות מכשירים לכל האוכלוסייה הידועה של כלים רפואיים המופעלים ב‑AI. הם מצאו, למשל, שהערכות קליניות פרוספקטיביות נותרו יחסית נדירות לאורך שלושה עשורים, סביב אחד מתוך עשרה מכשירים, בעוד שהאזכורים של ניסויים רב‑אתריים גדלו באופן משמעותי. בדוחות הבטיחות, הדגם חשף דפוסים שבהם סוג הבעיה המתואר בטקסט לא תאם את הקוד שהוגש ל‑FDA—למשל, מצבים שבהם כשלים בחומרה תוייגו כבעיות איכות תמונה. כאשר קישרו מאפיינים טרום‑אישוריים לאירועי בטיחות מאוחרים יותר, מכשירים שלפניו כבר היו להם משיכות או היסטוריית אירועים שליליים הציגו סיכונים גבוהים בהרבה לדוחות חדשים, בעוד שמכשירים הנתמכים בניסויים קליניים נטו להציג סיכון נמוך יותר. תוצאות אלה חקרניות אך ממחישות את סוג השאלות שניתן כעת לשאול באופן שוטף במקום כפרויקטים חד‑פעמיים.
מגבלות, אמצעי זהירות והדרך קדימה
המחברים מדגישים שהשיטה שלהם אינה מושלמת והיא לא אמורה להחליף שיקול דעת של מומחים. דיוק של כ‑80 אחוז עשוי להספיק לניתוח מגמות בתמונה הרחבה אך לא לקבלת החלטות על מכשיר יחיד או חולה בודד. הביצועים יכולים להשתנות בין סוגי מכשירים ושנים, ואיכות המסמכים הבסיסיים של ה‑FDA ומסדי הנתונים של בטיחות נשארת צוואר בקבוק עיקרי. עם זאת, המחקר מראה שמערכות מבוססות דגמי שפה שעוצבו בקפידה יכולות להפוך ערמות של טקסט רגולטורי שאינו מובנה לנתונים מובנים וניתנים לבדיקה בתוך ימים במקום שנים. לקוראים שאינם מקצוענים, המסקנה היא שהטכנולוגיות האותן מניעות צ’אטבוטים לצרכן יכולות גם לסייע לגורמי פיקוח וחוקרים לעקוב אחר אופן בנייתם, בדיקתם וניטורם של מכשירי בינה מלאכותית רפואיים—מה שעשוי להוביל לזיהוי מהיר יותר של בעיות ולהוכחות טובות יותר לעיצוב כללים ומוצרים בטוחים יותר.
ציטוט: Li, H., He, X., Subbaswamy, A. et al. Scaling medical device regulatory science using large language models. npj Digit. Med. 9, 221 (2026). https://doi.org/10.1038/s41746-026-02353-7
מילות מפתח: מכשירי בינה מלאכותית רפואיים, מדע רגולטורי, דגמי שפה גדולים, דוחות בטיחות של ה-FDA, פיקוח על טכנולוגיות בריאות