Clear Sky Science · sv

Mot pålitliga chattbotar: ett protokoll för red teaming i hälso‑relaterade samtal

· Tillbaka till index

Varför säkrare hälsochattbotar är viktiga

Många vänder sig till chattbotar för hjälp med praktiska livsproblem som påverkar deras hälsa, till exempel att hitta mataffärer, härbärgen eller ekonomiskt stöd. Den bekvämligheten väcker en allvarlig fråga: hur försäkrar vi oss om att dessa digitala hjälpmedel inte ger riskfyllda eller vilseledande råd, särskilt när användare är stressade, förvirrade eller i fara? Denna studie utforskar en steg‑för‑steg säkerhetsgenomgång för sådana chattbotar och visar hur de kan testas och justeras innan man litar på dem i känsliga, hälso‑relaterade samtal.

Att se bortom enkelt rätt och fel

De flesta kontroller av hälsochattbotar fokuserar på om specifika fakta är rätt eller fel. Författarna menar att detta inte räcker. En chattbot kan återge endast godkända fakta men ändå agera osäkert, till exempel överskrida sin roll, erbjuda åsikter där den inte borde eller svara dåligt på någon i kris. För att fånga detta skiljer de mellan två typer av beteenden. Den ena är hur väl boten håller sig till informationen i ett godkänt dokument, som en resurslista. Den andra är hur väl den följer bredare beteenderegler, såsom att hålla sig till ämnet, vara artig, vägra använda icke‑godkända kunskapskällor och hänvisa användare till verkliga människor när det behövs.

Figure 1. Hur en hälsochattbot kopplar människor till grundläggande resurser samtidigt som den håller sig inom tydliga säkerhetsgränser.
Figure 1. Hur en hälsochattbot kopplar människor till grundläggande resurser samtidigt som den håller sig inom tydliga säkerhetsgränser.

Medvetet utsätta chattboten för påfrestning

Teamet testade en verklig chattbot byggd för att koppla människor till hjälp för hälso‑relaterade sociala behov, som mat, bostad och säkerhet. De utformade sju typer av utmanande användarmeddelanden, kallade attackvektorer, som speglar verkliga konversationer snarare än bara laboratorietester. Vissa attacker försökte locka boten att hitta på detaljer om en resurs. Andra pressade den att ge råd utanför dess godkända område, svara på användare i nöd, hantera giftigt eller oförskämt språk eller kringgå sina egna säkerhetsregler genom smarta instruktioner. Dessa tester placerades både tidigt i en chatt och senare, när systemet redan hade hämtat resursinformation, för att se hur beteendet förändrades under samtalets gång.

Vad som gick sönder när samtalen blev längre

När teamet bara tittade på korta, enkla frågor verkade chattboten vara stark vad gäller att hålla sig till dokumenten den hämtade; den hittade inte på nya fakta om tjänster. Det större problemet låg i att följa beteendereglerna. I frågor med fokus på råd gled den ibland över i att ge "sunt förnuft"‑vägledning som inte stöddes av någon godkänd källa. När användare beskrev nöd eller fara hittade boten ibland på detaljer om krislinjer istället för att förlita sig på verifierade kontakter. De mest oroande problemen dök upp när forskarna förde längre, fram‑och‑tillbaka‑samtal och lugnt men bestämt pressade boten att svara. I dessa flerstegs‑chattar ökade felkvoten markant, och alla de mest riskfyllda problemen framträdde här, inklusive att skuldbelägga offer och ge detaljerade tips om att lämna missbrukssituationer som den inte var kvalificerad att ge.

Figure 2. Hur tester, regler och betrodda dokument samverkar för att styra en hälsochattbot mot säkrare svar.
Figure 2. Hur tester, regler och betrodda dokument samverkar för att styra en hälsochattbot mot säkrare svar.

Åtgärda svagheter med regler och betrodd text

Efter att ha identifierat dessa svagheter testade författarna två huvudsakliga åtgärder. För det första stärkte de chattbotens interna regler genom att lägga till klara, upprepade instruktioner att inte ge icke‑godkända råd, inte hitta på kontaktuppgifter och alltid hänvisa användare till professionell hjälp när dokumenten var otillräckliga. För det andra lade de till ett omsorgsfullt skrivet fråga‑och‑svar‑dokument för kris‑ och nödärenden, fyllt med säkra, lokala riktlinjer som boten kunde använda istället för att gissa. Tillsammans minskade dessa förändringar felen kraftigt överlag och, viktigast, eliminerade de värsta typerna av osäkra svar. När den pressades hårt i utdragna samtal tenderade chattboten att falla tillbaka i ett säkert mönster av att vägra svara direkt och att styra människor mot betrodda resurser.

Vad detta betyder för framtida digitala hjälpmedel

För vardagsanvändare är huvudbudskapet att bygga en pålitlig hälsochattbot handlar mindre om att få den att verka smart och mer om att få den att misslyckas på ett säkert sätt. Denna studie visar att noggrant utformade, realistiska "red teaming"‑samtal kan avslöja dolda problem som snabba tester missar, och att en kombination av striktare regler och granskad skriftlig vägledning kan styra chattbotar mot säkrare beteenden. Även om detta inte ersätter verkliga kliniker eller garanterar perfekt säkerhet, erbjuder det en praktisk färdplan för att göra hjälpsamma men bristfälliga chattverktyg till mer pålitliga partner när människor söker stöd för grundläggande behov och svåra situationer.

Citering: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

Nyckelord: hälsochattbotar, AI‑säkerhet, red teaming, retrieval augmented generation, patientorienterad AI