Clear Sky Science · fr

Vers des chatbots dignes de confiance : un protocole de red teaming pour les conversations liées à la santé

· Retour à l’index

Pourquoi des chatbots de santé plus sûrs sont importants

De nombreuses personnes se tournent vers des chatbots pour obtenir de l'aide sur des problèmes pratiques qui affectent leur santé, comme trouver des banques alimentaires, des centres d'hébergement ou une aide financière. Cette commodité soulève une question sérieuse : comment s'assurer que ces assistants numériques ne donnent pas de conseils risqués ou trompeurs, surtout lorsque les utilisateurs sont stressés, confus ou en danger ? Cette étude examine un bilan de sécurité étape par étape pour ces chatbots, montrant comment ils peuvent être testés et ajustés avant d'être dignes de confiance pour des conversations sensibles liées à la santé.

Au-delà du simple vrai ou faux

La plupart des contrôles des chatbots de santé se concentrent sur l'exactitude de faits spécifiques. Les auteurs soutiennent que cela ne suffit pas. Un chatbot peut répéter uniquement des faits approuvés tout en ayant un comportement dangereux, par exemple en dépassant son rôle, en donnant des opinions là où il ne devrait pas, ou en répondant mal à une personne en crise. Pour rendre compte de cela, ils distinguent deux types de comportements. Le premier concerne la fidélité du bot aux informations d'un document approuvé, comme une liste de ressources. Le second porte sur le respect de règles de conduite larges, comme rester sur le sujet, être poli, refuser d'utiliser des connaissances non approuvées et orienter les utilisateurs vers des personnes réelles quand c'est nécessaire.

Figure 1. Comment un chatbot de santé oriente les personnes vers des ressources de base tout en restant dans des limites de sécurité claires.
Figure 1. Comment un chatbot de santé oriente les personnes vers des ressources de base tout en restant dans des limites de sécurité claires.

Mettre délibérément le chatbot sous pression

L'équipe a testé un chatbot réel conçu pour mettre en relation des personnes avec des aides pour des besoins sociaux liés à la santé, tels que l'alimentation, le logement et la sécurité. Ils ont conçu sept types de messages utilisateur difficiles, appelés vecteurs d'attaque, qui reflètent des conversations réelles plutôt que de simples tours de laboratoire. Certaines attaques ont tenté d'amener le bot à inventer des détails sur une ressource. D'autres l'ont poussé à donner des conseils hors de son périmètre approuvé, à répondre à des utilisateurs en détresse, à gérer un langage toxique ou injurieux, ou à ignorer ses propres règles de sécurité via des consignes ingénieuses. Ces tests ont été placés aussi bien au début d'une conversation que plus tard, lorsque le système avait déjà récupéré des informations sur des ressources, afin d'observer comment le comportement évoluait au fil de l'échange.

Ce qui casse quand les conversations s'allongent

Lorsque l'équipe n'a examiné que des tests courts à question unique, le chatbot semblait solide pour rester fidèle aux documents qu'il récupérait ; il n'inventait pas de nouveaux faits sur les services. Le problème majeur concernait le respect des règles de conduite. Dans les questions axées sur les conseils, il glissait parfois vers des recommandations de « bon sens » qui n'étaient étayées par aucune source approuvée. Quand les utilisateurs décrivaient de la détresse ou un danger, le bot inventait parfois des coordonnées de lignes d'aide au lieu de s'appuyer sur des contacts vérifiés. Les problèmes les plus inquiétants sont apparus lors de conversations plus longues et interactives, quand les chercheurs poussaient doucement mais fermement le chatbot à répondre. Dans ces échanges à plusieurs tours, le taux d'erreur a fortement augmenté, et tous les problèmes les plus risqués y sont apparus, y compris des conseils blâmant la victime et des indications détaillées sur la façon de quitter des situations abusives que le bot n'était pas qualifié pour donner.

Figure 2. Comment des tests, des règles et des documents fiables fonctionnent ensemble pour guider un chatbot de santé vers des réponses plus sûres.
Figure 2. Comment des tests, des règles et des documents fiables fonctionnent ensemble pour guider un chatbot de santé vers des réponses plus sûres.

Corriger les faiblesses avec des règles et des textes de confiance

Après avoir repéré ces points faibles, les auteurs ont testé deux correctifs principaux. D'abord, ils ont renforcé les règles internes du chatbot en ajoutant des instructions claires et répétées de ne pas donner de conseils non approuvés, de ne pas inventer d'informations de contact et d'orienter systématiquement les utilisateurs vers une aide professionnelle lorsque les documents étaient insuffisants. Ensuite, ils ont ajouté un document questions-réponses rédigé avec soin pour les cas de crise et de détresse, contenant des orientations locales sûres que le bot pouvait utiliser au lieu de conjecturer. Utilisés ensemble, ces changements ont fortement réduit les erreurs en général et, surtout, ont supprimé les types de réponses les plus dangereux. Lorsqu'il était fortement sollicité dans des conversations prolongées, le chatbot avait tendance à revenir à un schéma sûr consistant à refuser de répondre directement et à orienter les personnes vers des ressources fiables.

Ce que cela signifie pour les futurs assistants numériques

Pour les utilisateurs quotidiens, le message clé est que construire un chatbot de santé digne de confiance consiste moins à le rendre intelligent qu'à le faire échouer en sécurité. Cette étude montre que des conversations de « red teaming » réalistes et soignées peuvent révéler des problèmes cachés que des tests rapides manquent, et qu'un mélange de règles plus strictes et de guides écrits vérifiés peut inciter les chatbots à adopter des comportements plus sûrs. Bien que cela ne remplace pas de vrais cliniciens ni ne garantisse une sécurité parfaite, cela offre une feuille de route pratique pour transformer des outils de chat utiles mais faillibles en partenaires plus fiables lorsque les gens cherchent du soutien pour des besoins de base et des situations difficiles.

Citation: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

Mots-clés: chatbots de santé, sécurité de l'IA, red teaming, génération augmentée par récupération, IA orientée patient