Clear Sky Science · he

הערכת דגמי שפה מבוססי בינה מלאכותית במתן תשובות לשאלות הקשורות להיריון, כפי שהוערכו על‑ידי מומחים במיילדות

2026-02-16 · חזרה לאינדקס

מדוע זה חשוב להורי העתיד

היריון הוא תקופה המלאה בשאלות, והרבה אנשים פונים כיום לכלים מקוונים ולצ׳אטבוטים לקבלת תשובות מהירות. המחקר הזה בדק שאלה פשוטה אך חשובה: בכל הנוגע לדאגות נפוצות בהיריון, עד כמה הצ׳אטבוטים הפופולריים של היום מסוגלים לתת מידע ברור, מדויק ומרגיע שאותם רופאים היו סומכים עליו?

השוואה בין שלוש "מנועי תשובות" דיגיטליים

חוקרים בטורקיה ביקשו להשוות בין שלושה דגמי שפה מוכרים — גרסה מוקדמת של ChatGPT (3.5), גרסה חדשה יותר (4.0), ו‑Gemini של גוגל. הם התמקדו בעשר שאלות יומיומיות שנשים בהריון שואלות לעתים קרובות, כגון אילו מזונות להימנע מהם, האם ספורט ומין בטוחים, מה עשוי להעיד על דימום מוקדם, כיצד להבין תנועות עובר, ואילו סימני אזהרה מחייבים טיפול דחוף. כל שאלה הוזנה לכל שלושת המערכות באמצעות הוראות פשוטות זהות, עם כוונון הגדרות להפחתת אקראיות כדי שהתשובות יהיו עקביות יותר ופחות שוחחניות או יצירתיות.

כל מודל ייצר תשובה אחת לכל שאלה, בטורקית, ללא המשך פניות או עריכות. לאחר מכן מחקו מהתשובות כל רמזים שעשויים היו לחשוף איזו מערכת כתבה אותן וערבבו אותן בסדר אקראי. כך המדרגים האנושיים — מומחי מיילדות וגינקולוגיה — שפטו רק את מה שעמד על הדף, לא את שם המותג או את סגנון הכתיבה שהם חשבו שהם מזהים.

כיצד הרופאים דרגו את התשובות

שבעים וחמישה מומחי מיילדות, מטווח של רופאים בתחילת דרכם ועד קלינאים ותיקים מאוד, דירגו את כל 30 התשובות המושׁתקות. עבור כל תגובה השתמשו בסולם חמש‑נקודות כדי לדרג ארבעה מאפיינים: דיוק (האם התואם ידע רפואי והנחיות עדכניות?), אמינות (האם המסר עקבי פנימית וחופשי מעצות בלתי בטוחות?), ידידותיות למטופל (האם הטון מתאים ומרגיע עבור לא‑מומחים?), ובהירות (האם השפה ברורה, מובנית ונוחה למעקב?). בסך הכול סיפקו המומחים 9,000 דירוגים אישיים — מאגר נתונים גדול שאיפשר לחוקרים לזהות הבדלים משמעותיים בין שלושת כלי ה‑AI.

הצוות השתמש לאחר מכן בשיטות סטטיסטיות המתאימות לסולמות דירוג כדי להשוות בין המودלים. הם גם בדקו עד כמה המדרגים היו עקביים זה עם זה וחקרו האם קלינאים עם יותר ניסיון דירגו אחרת לעומת חבריהם הצעירים יותר. המטרה לא הייתה לבנות צ׳אטבוט עובד, אלא לצלם תמונה מדויקת של אופן התנהגות המערכות תחת תנאים מבוקרים כאשר הן משיבות על שאלות היריון ריאליסטיות.

איזה צ׳אטבוט הצטיין?

באופן כולל, ChatGPT‑4.0 החדיש יותר עלה על הנותר. הרופאים דירגו את תשובותיו כהכי מדוייקות והכי ידידותיות למטופל, והוא גם הצטיין באמינות. Gemini בדרך‑כלל נמצא באמצע: תגובותיו היו לעתים קרובות ברורות וקלות לקריאה, ובמובן הבנת הטקסט היא הייתה דומה ל‑ChatGPT‑4.0, אך נטתה להיות מעט פחות מפורטת ומדויקת. ChatGPT‑3.5, המודל הישן יותר, קיבל באופן עקבי את הציונים הנמוכים ביותר, לעתים קרובות מספק הסברים קצרים או פחות שלמים. מעניין כי בכל הנוגע להירות בסיסית ומבנה, שלושת המודלים נראו דומים יותר, מה שמרמז שגרימת טקסט לקריא נראית קלה יותר מאשר להבטיח שכל פרט רפואי יהיה נכון ומאוזן כראוי.

דירוגי הרופאים היו עקביים במידה רבה זה עם זה, מה שמעיד שהממצאים לא נובעים ממספר דעות קיצוניות בודדות. נצפתה מגמה מתונה של קלינאים מיומנים יותר לתת ציוני אמינות מעט גבוהים יותר בסך‑הכל, אך דעותיהם לא השתנו משמעותית ביחס לידידותיות או לקלות ההבנה של התשובות.

מה משמעות הדבר לשימוש בעולם האמיתי

עבור איש שאינו מקצועי, המסקנה היא שכלי ה‑AI המודרניים — ובייחוד ChatGPT‑4.0 — כבר יכולים לספק מידע על היריון שרבים מהמומחים במיילדות רואים כדיוקי יחסית, בטוח וקל לקריאה. עם זאת, המחקר גם מדגיש גבול חשוב: אפילו המערכת הטובה ביותר אינה רופא. החוקרים לא השוו את תשובות הצ׳אטבוטים ל"תקני זהב" של הנחיות רשמיות, ולא בחנו כיצד מטופלים מפרשים או מיישמים בפועל את העצות. מאחר שהעבודה בוצעה כולה בטורקית, הביצועים בשפות ותרבויות אחרות עשויים להיות שונים.

במילים פשוטות, צ׳אטבוטי ה‑AI האלה יכולים לשמש כשותפים מועילים בלמידה על היריון, במיוחד כאשר ביקור במרפאה רחוק או הזמן עם ספק מוגבל. הם עשויים לתמוך בשיחות עם אנשי בריאות, אך אין להחליפן. המחברים מדגישים כי פיקוח מומחים נשאר חיוני כדי לתפוס שגיאות, להימנע מרגיעה כוזבת, ולוודא שמצבים מורכבים או בסיכון גבוה יקבלו את הטיפול האישי והפרונטלי שהם דורשים.

ציטוט: Keyif, B., Yurtçu, E., Başbuğ, A. et al. Evaluation of AI language models in answering pregnancy-related questions assessed by obstetrics specialists. Sci Rep 16, 9322 (2026). https://doi.org/10.1038/s41598-026-40609-0

מילות מפתח: חינוך להיריון, צ׳אטבוטים מבוססי בינה מלאכותית, ייעוץ בריאותי מקוון, מיילדות, איכות מידע למטופלים