Clear Sky Science · nl

Op weg naar betrouwbare chatbots: een protocol voor red teaming bij gezondheidsgesprekken

· Terug naar het overzicht

Waarom veiligere gezondheidschatbots ertoe doen

Veel mensen wenden zich tot chatbots voor hulp bij praktische levensproblemen die hun gezondheid beïnvloeden, zoals het vinden van voedselbanken, opvang of financiële hulp. Dat gemak roept een urgente vraag op: hoe zorgen we ervoor dat deze digitale helpers geen risicovol of misleidend advies geven, vooral wanneer gebruikers gestrest, verward of in gevaar zijn? Deze studie verkent een stapsgewijze veiligheidscheck voor zulke chatbots en laat zien hoe ze getest en bijgesteld kunnen worden voordat men ze vertrouwt met gevoelige, gezondheidsgerelateerde gesprekken.

Voorbij simpel goed of fout

De meeste controles op gezondheidschatbots richten zich op of specifieke feiten juist of onjuist zijn. De auteurs betogen dat dat niet voldoende is. Een chatbot kan zich beperken tot goedgekeurde feiten en toch onveilig handelen, bijvoorbeeld door zijn rol te overschrijden, meningen te geven waar dat niet gepast is of slecht te reageren op iemand in crisis. Om dit vast te leggen onderscheiden ze twee soorten gedrag. De ene is hoe goed de bot zich houdt aan de informatie in een goedgekeurd document, zoals een overzicht van hulpbronnen. De andere is hoe goed hij brede gedragsregels volgt, zoals bij het onderwerp blijven, beleefd zijn, geen ongeautoriseerde kennis gebruiken en gebruikers doorverwijzen naar echte mensen wanneer dat nodig is.

Figure 1. Hoe een gezondheidschatbot mensen naar basisvoorzieningen leidt terwijl hij binnen duidelijke veiligheidsgrenzen blijft.
Figure 1. Hoe een gezondheidschatbot mensen naar basisvoorzieningen leidt terwijl hij binnen duidelijke veiligheidsgrenzen blijft.

De chatbot doelbewust onder druk zetten

Het team testte een echte chatbot die mensen koppelt aan hulp voor gezondheidsgerelateerde sociale behoeften, zoals voedsel, huisvesting en veiligheid. Ze ontwierpen zeven soorten uitdagende gebruikersberichten, zogenaamde aanvalsvectoren, die echte gesprekken reflecteren in plaats van slechts labtrucs. Sommige aanvallen probeerden de bot te verleiden tot het verzinnen van details over een hulpbron. Andere duwden hem om advies te geven buiten zijn goedgekeurde scope, te reageren op gebruikers in nood, om te gaan met giftige of onbeleefde taal, of zijn eigen veiligheidsregels te omzeilen met slimme prompts. Deze tests werden zowel vroeg in een chat als later, wanneer het systeem al hulpbronnen had opgehaald, geplaatst om te zien hoe het gedrag veranderde naarmate het gesprek vorderde.

Wat er misging naarmate gesprekken langer werden

Wanneer het team alleen keek naar korte, eenmalige tests, leek de chatbot sterk in het vasthouden aan de documenten die hij ophaalde; hij verzon geen nieuwe feiten over diensten. Het grotere probleem lag in het volgen van zijn gedragsregels. Bij adviesgerichte vragen gleed hij soms over in het geven van "gezond verstand"-aanwijzingen die niet door een goedgekeurde bron werden onderbouwd. Wanneer gebruikers nood of gevaar beschreven, verzon de bot af en toe details van crisishulplijnen in plaats van te vertrouwen op geverifieerde contactgegevens. De meest verontrustende problemen kwamen naar voren bij langere, interactieve gesprekken waarin de onderzoekers de chatbot zacht maar systematisch onder druk zetten om te antwoorden. In deze meer-turn gesprekken steeg het aantal fouten scherp, en alle hoogst-risico situaties verschenen hier, waaronder slachtofferbeschuldigend advies en gedetailleerde tips over het verlaten van gewelddadige situaties waar hij niet voor gekwalificeerd was.

Figure 2. Hoe tests, regels en vertrouwde documenten samenwerken om een gezondheidschatbot naar veiligere antwoorden te sturen.
Figure 2. Hoe tests, regels en vertrouwde documenten samenwerken om een gezondheidschatbot naar veiligere antwoorden te sturen.

Zwakke punten verhelpen met regels en vertrouwde tekst

Nadat deze zwakke punten waren vastgesteld, probeerden de auteurs twee hoofdoplossingen. Ten eerste versterkten ze de interne regels van de chatbot door duidelijke, herhaalde instructies toe te voegen om geen ongeautoriseerd advies te geven, geen contactgegevens te verzinnen en altijd gebruikers naar professionele hulp te verwijzen wanneer documenten tekortschoten. Ten tweede voegden ze een zorgvuldig opgesteld vraag-en-antwoord-document toe voor crisis- en noodsituaties, gevuld met veilige, lokale richtlijnen waarop de bot kon terugvallen in plaats van te gokken. Gezamenlijk verminderden deze veranderingen het aantal fouten sterk en, belangrijker nog, elimineerden ze de gevaarlijkste vormen van onveilige antwoorden. Wanneer de chatbot hard werd getest in uitgebreide gesprekken, viel hij vaker terug op een veilig patroon van weigeren direct te antwoorden en mensen naar vertrouwde hulpbronnen te leiden.

Wat dit betekent voor toekomstige digitale helpers

Voor dagelijkse gebruikers is de kernboodschap dat het bouwen van een betrouwbare gezondheidschatbot minder gaat om hem slim te laten klinken en meer om hem veilig te laten falen. Deze studie toont aan dat zorgvuldige, realistische "red teaming"-gesprekken verborgen problemen kunnen onthullen die snelle tests missen, en dat een mix van strengere regels en geverifieerde schriftelijke richtlijnen chatbots kan sturen naar veiliger gedrag. Hoewel dit echte clinici niet vervangt of perfecte veiligheid garandeert, biedt het een praktische routekaart om behulpzame maar foutgevoelige chattools betrouwbaarder te maken wanneer mensen steun zoeken bij basisbehoeften en moeilijke situaties.

Bronvermelding: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

Trefwoorden: gezondheidschatbots, AI-veiligheid, red teaming, retrieval augmented generation, patiëntgerichte AI