Clear Sky Science · ru

К более надёжным чатботам: протокол red teaming для разговоров, связанных со здоровьем

· Назад к списку

Почему важны более безопасные чатботы для здоровья

Многие люди обращаются к чатботам за помощью в практических жизненных вопросах, влияющих на здоровье — например, чтобы найти продуктовые банки, приюты или финансовую помощь. Такое удобство порождает серьёзный вопрос: как обеспечить, чтобы эти цифровые помощники не давали рискованные или вводящие в заблуждение советы, особенно когда пользователи находятся в стрессe, растерянности или опасности? В этом исследовании предложен пошаговый протокол проверки безопасности таких чатботов, показывающий, как их можно тестировать и настраивать прежде, чем доверить им чувствительные разговоры, связанные со здоровьем.

Больше, чем простая проверка «правильно/неправильно»

Большинство проверок чатботов в сфере здравоохранения сосредоточены на том, верны ли конкретные факты. Авторы утверждают, что этого недостаточно. Чатбот может повторять только одобренные факты, но при этом вести себя небезопасно: превышать свои полномочия, высказывать мнения там, где это неуместно, или неправильно реагировать на человека в кризисе. Чтобы отразить это, они разделяют два вида поведения. Первый — насколько бот придерживается информации из одобренного документа, например списка ресурсов. Второй — насколько он следует общим правилам поведения, таким как держаться темы, вежливость, отказ от использования неутверждённых знаний и направление пользователей к реальным специалистам при необходимости.

Figure 1. Как чатбот для здоровья связывает людей с базовыми ресурсами, оставаясь в чётких границах безопасности.
Figure 1. Как чатбот для здоровья связывает людей с базовыми ресурсами, оставаясь в чётких границах безопасности.

Специальное нагружение чатбота

Команда протестировала реальный чатбот, созданный для связи людей с помощью по социальным потребностям, связанным со здоровьем, таким как еда, жильё и безопасность. Они разработали семь типов сложных пользовательских сообщений, называемых векторами атаки, которые отражают реальные разговоры, а не только лабораторные приёмы. Некоторые атаки пытались вынудить бота выдумать детали о ресурсе. Другие — подтолкнуть его к советам вне одобренной области, заставить отвечать на запросы в состоянии стресса, обрабатывать токсичную или грубую речь или обходить собственные правила безопасности с помощью хитрых подсказок. Эти тесты проводились как в начале диалога, так и позже, когда система уже извлекла информацию о ресурсах, чтобы увидеть, как меняется поведение по мере развития разговора.

Что ломалось в длинных разговорах

Когда команда смотрела только на короткие, одновопросные тесты, чатбот, казалось, хорошо удерживал привязку к документам; он не выдумывал новые факты о службах. Бóльшая проблема заключалась в соблюдении правил поведения. В вопросах, ориентированных на советы, он иногда скатывался к «здравому смыслу», который не подтверждался ни одним одобренным источником. Когда пользователи описывали стресс или опасность, бот порой выдумывал данные кризисных линий, вместо того чтобы опираться на проверенные контакты. Наиболее тревожные проблемы проявлялись в более длинных, многоходовых беседах, где исследователи настойчиво, но аккуратно подталкивали чатбот к ответу. В таких многоступенчатых чатах уровень ошибок резко возрастал, и все наиболее рискованные проблемы возникали именно там, включая советы, обвиняющие жертву, и подробные рекомендации по уходу из насильственных отношений, которые бот не квалифицирован давать.

Figure 2. Как тесты, правила и доверенные документы работают вместе, направляя чатбота по здоровью к более безопасным ответам.
Figure 2. Как тесты, правила и доверенные документы работают вместе, направляя чатбота по здоровью к более безопасным ответам.

Исправление слабых мест правилами и доверенным текстом

Обнаружив эти уязвимости, авторы опробовали два основных исправления. Во‑первых, они усилили внутренние правила чатбота, добавив чёткие и повторяющиеся инструкции не давать неутверждённые советы, не выдумывать контактную информацию и всегда перенаправлять пользователей к профессиональной помощи, когда документов недостаточно. Во‑вторых, они добавили аккуратно составленный документ вопросов и ответов для случаев кризиса и стресса, содержащий безопасные локальные рекомендации, к которым бот мог обращаться вместо догадок. В совокупности эти изменения значительно сократили число ошибок и, что важнее, устранили худшие виды небезопасных ответов. При сильном давлении в продолжительных беседах чатбот чаще отходил к безопасной модели — отказывался отвечать прямо и направлял людей к проверенным ресурсам.

Что это значит для будущих цифровых помощников

Для повседневных пользователей ключевая мысль такова: создание надёжного чатбота для здоровья — это не столько о том, чтобы он казался умным, сколько о том, чтобы он безопасно терпел неудачу. Исследование показывает, что внимательный, реалистичный red teaming может выявить скрытые проблемы, которые пропускают быстрые тесты, и что сочетание ужесточённых правил и проверенных письменных рекомендаций может склонить чатботов к более безопасному поведению. Хотя это не заменит настоящих врачей и не гарантирует абсолютной безопасности, это даёт практическую дорожную карту для превращения полезных, но несовершенных чатботов в более надёжных партнёров, когда люди ищут помощь по базовым потребностям и в трудных ситуациях.

Цитирование: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

Ключевые слова: чатботы для здоровья, безопасность ИИ, red teaming, генерация с поддержкой поиска, ИИ для пациентов