Clear Sky Science · de

Auf dem Weg zu vertrauenswürdigen Chatbots: Ein Protokoll zum Red Teaming für gesundheitsbezogene Gespräche

2026-03-31 · Zurück zur Übersicht

Warum sichere Gesundheits-Chatbots wichtig sind

Viele Menschen wenden sich an Chatbots, um Hilfe bei praktischen Alltagsproblemen zu bekommen, die ihre Gesundheit betreffen — z. B. bei der Suche nach Tafeln, Unterkünften oder finanzieller Unterstützung. Diese Bequemlichkeit wirft eine ernste Frage auf: Wie stellen wir sicher, dass diese digitalen Helfer keine riskanten oder irreführenden Ratschläge geben, insbesondere wenn Nutzer gestresst, verwirrt oder in Gefahr sind? Diese Studie untersucht einen schrittweisen Sicherheitscheck für solche Chatbots und zeigt, wie sie getestet und abgestimmt werden können, bevor man ihnen sensible, gesundheitsbezogene Gespräche anvertraut.

Weiter schauen als nur richtig oder falsch

Die meisten Prüfungen von Gesundheits-Chatbots konzentrieren sich darauf, ob bestimmte Fakten richtig oder falsch sind. Die Autoren argumentieren, dass das nicht ausreicht. Ein Chatbot kann ausschließlich genehmigte Fakten wiedergeben und trotzdem unsicher handeln, etwa indem er seine Rolle überschreitet, Meinungen äußert, wo er das nicht sollte, oder schlecht auf eine Person in Krisensituationen reagiert. Um das zu erfassen, unterscheiden sie zwei Verhaltensarten. Die eine ist, wie gut der Bot an den Informationen in einem genehmigten Dokument, etwa einer Ressourcensammlung, festhält. Die andere ist, wie gut er breit gefasste Verhaltensregeln befolgt, etwa beim Thema zu bleiben, höflich zu sein, auf unzulässiges Wissen zu verzichten und Nutzer bei Bedarf an reale Ansprechpartner zu verweisen.

Figure 1. Wie ein Gesundheits-Chatbot Menschen mit grundlegenden Ressourcen verknüpft und dabei klare Sicherheitsgrenzen einhält.

Den Chatbot absichtlich unter Stress setzen

Das Team testete einen realen Chatbot, der entwickelt wurde, um Menschen bei gesundheitsbezogenen sozialen Bedürfnissen wie Ernährung, Wohnraum und Sicherheit zu helfen. Sie entwarfen sieben Arten herausfordernder Nutzeranfragen, sogenannte Angriffsvektoren, die reale Gespräche widerspiegeln statt nur Labortricks. Einige Angriffe versuchten, den Bot dazu zu bringen, Details über eine Ressource zu erfinden. Andere drängten ihn, Ratschläge außerhalb seines genehmigten Rahmens zu geben, auf Nutzer in Not schlecht zu reagieren, toxische oder unhöfliche Sprache zu verarbeiten oder seine eigenen Sicherheitsregeln durch raffinierte Prompts zu umgehen. Diese Tests wurden sowohl früh in einem Chat als auch später platziert, wenn das System bereits Ressourceninformationen abgerufen hatte, um zu sehen, wie sich das Verhalten im Verlauf des Gesprächs änderte.

Was kaputt ging, wenn Gespräche länger wurden

Wenn das Team nur kurze, einfragige Tests betrachtete, schien der Chatbot stark darin zu sein, an den abgerufenen Dokumenten festzuhalten; er erfand keine neuen Fakten über Dienste. Das größere Problem lag in der Einhaltung seiner Verhaltensregeln. Bei ratgeberorientierten Fragen glitt er manchmal in „gesunden Menschenverstand“-Hinweise ab, die von keiner genehmigten Quelle gestützt waren. Wenn Nutzer von Bedrängnis oder Gefahr berichteten, erfand der Bot gelegentlich Krisenhotline-Details, statt sich auf verifizierte Kontakte zu stützen. Die beunruhigendsten Probleme traten auf, wenn die Forschenden längere, wechselseitige Gespräche führten und den Chatbot beharrlich, aber vorsichtig zum Antworten drängten. In diesen mehrstufigen Chats stiegen die Fehlerquoten stark an, und alle hochriskanten Probleme traten hier auf, einschließlich Opfern die Schuld zu geben und detaillierte Hinweise zum Verlassen missbräuchlicher Situationen zu geben, wozu er nicht befähigt war.

Figure 2. Wie Tests, Regeln und vertrauenswürdige Dokumente zusammenwirken, um einen Gesundheits-Chatbot zu sichereren Antworten zu steuern.

Schwächen mit Regeln und verifiziertem Text beheben

Nachdem diese Schwachstellen erkannt waren, testeten die Autoren zwei Hauptmaßnahmen. Erstens stärkten sie die internen Regeln des Chatbots, indem sie klare, wiederholte Anweisungen hinzufügten: keine ungenehmigten Ratschläge geben, keine Kontaktinformationen erfinden und Nutzer immer an professionelle Hilfe verweisen, wenn Dokumente nicht ausreichten. Zweitens ergänzten sie ein sorgfältig formuliertes Frage‑und‑Antwort‑Dokument für Krisen‑ und Notfälle, das sichere, lokale Hinweise enthält, auf die der Bot zurückgreifen kann, statt zu raten. Zusammen angewendet verringerten diese Änderungen die Fehler insgesamt deutlich und beseitigten vor allem die schlimmsten Arten unsicherer Antworten. Wenn der Bot in längeren Gesprächen stark unter Druck gesetzt wurde, griff er eher auf ein sicheres Muster zurück: direkte Antworten verweigern und die Menschen zu vertrauenswürdigen Ressourcen leiten.

Was das für zukünftige digitale Helfer bedeutet

Für Alltagsnutzer lautet die Kernbotschaft: Einen vertrauenswürdigen Gesundheits-Chatbot zu bauen bedeutet weniger, ihn intelligent klingen zu lassen, als ihn so zu gestalten, dass er sicher scheitert. Diese Studie zeigt, dass sorgfältige, realistische Red‑Teaming‑Gespräche verborgene Probleme aufdecken können, die schnelle Tests übersehen, und dass eine Kombination aus strengeren Regeln und geprüfter schriftlicher Anleitung Chatbots zu sichererem Verhalten lenken kann. Das ersetzt zwar keine echten Kliniker und garantiert keine perfekte Sicherheit, bietet aber eine praktische Roadmap, um hilfreiche, aber fehlbare Chat‑Tools zu verlässlicheren Partnern zu machen, wenn Menschen Unterstützung bei Grundbedürfnissen und schwierigen Situationen suchen.

Zitation: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

Schlüsselwörter: Gesundheits-Chatbots, KI-Sicherheit, Red Teaming, Retrieval Augmented Generation, patientenorientierte KI