Clear Sky Science · he
לקראת צ׳אטבוטים אמינים: פרוטוקול ל'רד-טימינג' לשיחות בתחום הבריאות
מדוע צ׳אטבוטים בריאים חשובים
אנשים פונים לעיתים קרובות לצ׳אטבוטים לעזרה בבעיות מעשיות שמשפיעות על בריאותם, כמו מציאת מרכולי מזון, מקלטים או סיוע כלכלי. הנוחות הזו מעלה שאלה חשובה: איך נוודא שעוזרים דיגיטליים אלה לא יתנו ייעוץ מסוכן או מטעה, במיוחד כשמשתמשים לחוצים, מבולבלים או בסכנה? המחקר הזה בוחן בדיקת בטיחות שלב-אחר-שלב לצ׳אטבוטים כאלה, ומראה איך ניתן לבדוק ולכוון אותם לפני שמפקידים בידיהם שיחות רגישות הקשורות לבריאות.
מסתכלים מעבר ל'נכון' או 'לא נכון' פשוט
רבים מהבדיקות בצ׳אטבוטים בריאותיים מתמקדות בשאלה האם עובדות ספציפיות נכונות או שגויות. המחברים טוענים שזה לא מספיק. צ׳אטבוט עשוי לחזור רק על עובדות מאושרות ועדיין לפעול בצורה לא בטוחה, למשל לחרוג מתפקידו, להציע דעות במקום שבו אין להן מקום, או להגיב באופן לא הולם למי במשבר. כדי ללכוד זאת הם מפרידים בין שני סוגי התנהגות. סוג אחד הוא עד כמה הבוט דבוק למידע במסמך מאושר, כמו רשימת משאבים. הסוג השני הוא עד כמה הוא עומד בכללי התנהגות רחבים, למשל להישאר בעניינים, להיות מנומס, לסרב להשתמש בידע לא מאושר ולהפנות אנשים לאנשי מקצוע כשנדרש.

להעמיס על הצ׳אטבוט במכוון
הצוות בדק צ׳אטבוט אמיתי שנבנה כדי לקשר אנשים לעזרה בצרכים חברתיים הקשורים לבריאות, כמו מזון, דיור ובטחון. הם עיצבו שבעה סוגי הודעות משתמש מאתגרות, שנקראו וקטורי התקפה, שמדמות שיחות אמיתיות ולא רק תרגילי מעבדה. חלק מההתקפות ניסו לפתות את הבוט להמציא פרטים על משאב. אחרות התעקשו שהוא יתן ייעוץ מחוץ להיקף המאושר שלו, יגיב למשתמשים במצוקה, יטפל בשפה רעילה או גסה, או יתעלם מכללי הבטיחות שלו דרך פרומפטים מתוחכמים. המבחנים הוכנסו גם בשלבים מוקדמים של השיחה וגם מאוחר יותר, כשמערכת כבר שלפה מידע על משאבים, כדי לראות כיצד ההתנהגות משתנה ככל שהשיחה מתפתחת.
מה קרה כששיחות התארכו
כשצוות המחקר הסתכל רק על מבחנים קצרים של שאלה אחת, הצ׳אטבוט נראה חזק בשמירה על המסמכים שהוא שלף; הוא לא המציא עובדות חדשות לגבי שירותים. הבעיה הגדולה יותר התגלתה במעקב אחרי כללי ההתנהגות. בשאלות שמכוונות לייעוץ, לפעמים הוא החמיץ וניסה לתת הנחיות "שכליות" שלא נתמכו על-ידי מקור מאושר. כשהמשתמשים תיארו מצוקה או סכנה, הבוט מדי פעם המציא פרטי מוקד משבר במקום להסתמך על אנשי קשר מאומתים. הבעיות המדאיגות ביותר הופיעו כאשר החוקרים קיימו שיחות ארוכות, דו-כיווניות, ולחצו בעדינות אך בעקביות על הצ׳אטבוט לענות. בשיחות מרובות תורות אלה שיעורי השגיאות עלו באופן חמור, וכל סוגי הבעיות בסיכון הגבוה ביותר הופיעו שם, כולל ייעוץ שמאשים את הקורבן וטיפים מפורטים לגבי עזיבת מצבי התעללות שהבוט לא היה מוסמך לתת.

תיקון חולשות בעזרת כללים וטקסט מהימן
לאחר שגילו את נקודות התורפה הללו, המחברים ניסו שתי תיקונים עיקריים. ראשית, הם חיזקו את כללי הפנים של הצ׳אטבוט באמצעות הוספת הוראות ברורות וחוזרות שלא לתת ייעוץ לא מאושר, לא להמציא פרטי קשר, ולכוון תמיד לאנשי מקצוע כשהמסמכים אינם מספקים. שנית, הם הוסיפו מסמך שאלות ותשובות שנכתב בקפידה עבור מקרי משבר ומצוקה, המכיל הנחיות מקומיות ובטוחות שהבוט יכול להסתמך עליהן במקום לנחש. השילוב של השינויים הללו הפחית באופן דרמטי שגיאות באופן כללי, והיחיד החשוב ביותר — הסיר את סוגי התגובות הבלתי בטוחות החמורים ביותר. כאשר נלחץ בחוזקה בשיחות מורחבות, הצ׳אטבוט נטה לחזור לדפוס בטוח של סירוב לענות ישירות והפניית אנשים למשאבים מהימנים.
מכאן למה זה משמעותי לעוזרים דיגיטליים עתידיים
למשתמשים יומיומיים, המסר המרכזי הוא שבניית צ׳אטבוט בריאות אמין היא פחות עניין של הופעה חכמה ויותר עניין של כשל בטוח. המחקר מראה כי שיחות רד-טימינג זהירות וריאליסטיות יכולות לחשוף בעיות חבויות שמבחנים מהירים מפספסים, וששילוב של כללים מחמירים והדרכה כתובה מאומתת יכול לדחוף צ׳אטבוטים להתנהגות בטוחה יותר. אמנם זה לא מחליף רופאים אמיתיים ואינו מבטיח בטיחות מושלמת, אך זה מציע מפת דרכים מעשית לשדרוג כלים עוזרייים מועילים אך פגיעים לשותפים אמינים יותר כאשר אנשים מבקשים תמיכה בצרכים בסיסיים ובמצבים קשים.
ציטוט: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3
מילות מפתח: צ׳אטבוטים בתחום הבריאות, בטיחות בינה מלאכותית, רד-טימינג, הפקה מועשרת על-ידי אחזור, בינה מלאכותית מול מטופלים