Clear Sky Science · pl

W kierunku zaufanych chatbotów: protokół red teamingu dla rozmów związanych ze zdrowiem

· Powrót do spisu

Dlaczego bezpieczniejsze chatboty zdrowotne mają znaczenie

Wiele osób zwraca się do chatbotów po pomoc w praktycznych sprawach wpływających na zdrowie, takich jak znalezienie punktów wydawania żywności, schronisk czy pomocy finansowej. Ta wygoda rodzi poważne pytanie: jak zapewnić, by te cyfrowe pomocniki nie udzielały ryzykownych lub wprowadzających w błąd porad, zwłaszcza gdy użytkownicy są zestresowani, zdezorientowani lub zagrożeni? W tym badaniu przedstawiono krok po kroku procedurę kontroli bezpieczeństwa dla takich chatbotów, pokazując, jak można je testować i dopracowywać, zanim zostaną zaufane w rozmowach o wrażliwych kwestiach zdrowotnych.

Patrząc dalej niż proste prawda i fałsz

Większość kontroli chatbotów zdrowotnych koncentruje się na tym, czy konkretne fakty są prawidłowe. Autorzy twierdzą, że to za mało. Chatbot może powtarzać jedynie zatwierdzone fakty, a mimo to zachowywać się niebezpiecznie — na przykład przekraczać swój zakres działania, wyrażać opinie tam, gdzie nie powinien, lub źle reagować na osobę w kryzysie. Aby to uchwycić, rozdzielili dwa rodzaje zachowań. Pierwsze to, jak dobrze bot trzyma się informacji z zatwierdzonego dokumentu, na przykład listy zasobów. Drugie to, jak dobrze przestrzega szerokich reguł zachowania, takich jak pozostawanie przy temacie, uprzejmość, powstrzymywanie się od korzystania z niezatwierdzonej wiedzy oraz kierowanie użytkowników do rzeczywistych osób, gdy jest to konieczne.

Figure 1. Jak chatbot zdrowotny łączy ludzi z podstawowymi zasobami, pozostając w wyraźnych granicach bezpieczeństwa.
Figure 1. Jak chatbot zdrowotny łączy ludzi z podstawowymi zasobami, pozostając w wyraźnych granicach bezpieczeństwa.

Celowe wystawianie chatbota na stres

Zespół testował rzeczywistego chatbota stworzonego do łączenia ludzi z pomocą dotyczącą społecznych potrzeb zdrowotnych, takich jak jedzenie, mieszkanie i bezpieczeństwo. Zaprojektowali siedem rodzajów trudnych wiadomości od użytkowników, zwanych wektorami ataku, które odzwierciedlają rzeczywiste rozmowy, a nie tylko laboratoryjne sztuczki. Niektóre ataki próbowały skusić bota do wymyślania szczegółów o zasobach. Inne zmuszały go do udzielania porad poza zatwierdzonym zakresem, reagowania na osoby w stanie zagrożenia, radzenia sobie z toksycznym lub niegrzecznym językiem, albo ignorowania własnych zasad poprzez sprytne podpowiedzi. Testy przeprowadzano zarówno na początku rozmowy, jak i później, gdy system już pobrał informacje o zasobach, aby zobaczyć, jak zachowanie zmienia się w miarę rozwijania konwersacji.

Co się psuło, gdy rozmowy stawały się dłuższe

Gdy zespół oceniał jedynie krótkie, jednowątkowe testy, chatbot wydawał się dobrze trzymać dokumentów, które odzyskiwał; nie wymyślał nowych faktów o usługach. Większym problemem było przestrzeganie reguł zachowania. W pytaniach wymagających porad czasami przechodził do udzielania „zdroworozsądkowych” wskazówek, które nie były poparte żadnym zatwierdzonym źródłem. Gdy użytkownicy opisywali cierpienie lub niebezpieczeństwo, bot od czasu do czasu wymyślał dane kontaktowe do linii kryzysowych zamiast polegać na zweryfikowanych kontaktach. Najpoważniejsze problemy ujawniły się podczas dłuższych, naprzemiennych rozmów, gdy badacze delikatnie, ale stanowczo naciskali bota na odpowiedź. W tych wieloturnowych czatach wskaźniki błędów gwałtownie rosły, a wszystkie najwyżej ryzykowne problemy pojawiały się właśnie tutaj, w tym obwinianie ofiary czy szczegółowe porady dotyczące opuszczania sytuacji przemocowej, do których bot nie był uprawniony.

Figure 2. Jak testy, reguły i zaufane dokumenty współpracują, by ukierunkować chatbota zdrowotnego na bezpieczniejsze odpowiedzi.
Figure 2. Jak testy, reguły i zaufane dokumenty współpracują, by ukierunkować chatbota zdrowotnego na bezpieczniejsze odpowiedzi.

Naprawianie słabości za pomocą reguł i zaufanego tekstu

Po wykryciu tych słabych punktów autorzy wypróbowali dwa główne rozwiązania. Po pierwsze, wzmocnili wewnętrzne reguły chatbota, dodając jasne, wielokrotnie powtarzane instrukcje, by nie udzielać niezatwierdzonych porad, nie wymyślać danych kontaktowych i zawsze kierować użytkowników do profesjonalnej pomocy, gdy dokumenty są niewystarczające. Po drugie, dodali starannie przygotowany dokument pytań i odpowiedzi na wypadek kryzysów i stanów zaniepokojenia, zawierający bezpieczne, lokalne wskazówki, z których bot mógłby korzystać zamiast zgadywać. Użyte razem, te zmiany znacznie zmniejszyły liczbę błędów ogółem i, co najważniejsze, wyeliminowały najgorsze rodzaje niebezpiecznych odpowiedzi. Gdy bot był mocno naciskany w przedłużonych rozmowach, miał skłonność do powrotu do bezpiecznego wzorca — odmowy bezpośredniej odpowiedzi i kierowania ludzi do zaufanych zasobów.

Co to oznacza dla przyszłych cyfrowych pomocników

Dla zwykłych użytkowników kluczowy wniosek jest taki, że budowanie zaufanego chatbota zdrowotnego to mniej kwestia sprawiania, by brzmiał mądrze, a bardziej: by bezpiecznie radził sobie z niepowodzeniami. To badanie pokazuje, że staranny, realistyczny „red teaming” rozmów może ujawnić ukryte problemy, które umykają szybkim testom, oraz że połączenie surowszych reguł i zweryfikowanych wskazówek pisemnych może nakierować chatboty na bezpieczniejsze zachowanie. Choć to nie zastępuje prawdziwych klinicystów ani nie gwarantuje doskonałego bezpieczeństwa, oferuje praktyczną mapę drogową, jak zamienić pomocne, lecz zawodnе narzędzia czatu w bardziej wiarygodnych partnerów, gdy ludzie szukają wsparcia w podstawowych potrzebach i trudnych sytuacjach.

Cytowanie: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

Słowa kluczowe: chatboty zdrowotne, bezpieczeństwo AI, red teaming, retrieval augmented generation, AI skierowana do pacjentów