Clear Sky Science · tr

Güvenilir sohbet botlarına doğru: sağlıkla ilgili konuşmalar için kırmızı takım protokolü

· Dizine geri dön

Daha güvenli sağlık sohbet botlarının önemi

Birçok insan, gıda bankaları, barınaklar veya maddi yardım bulma gibi sağlıklarını etkileyen pratik yaşam sorunlarında yardım için sohbet botlarına yöneliyor. Bu kolaylığın beraberinde ciddi bir soru geliyor: bu dijital yardımcıların, özellikle kullanıcılar stresli, kafası karışmış veya tehlikede olduğunda, tehlikeli veya yanıltıcı tavsiyeler vermediğinden nasıl emin olacağız? Bu çalışma, bu tür sohbet botları için adım adım bir güvenlik kontrolden geçirilmeyi inceliyor ve hassas sağlıkla ilgili konuşmalarla güvenilir hale gelmeden önce nasıl test edilebileceklerini ve ayarlanabileceklerini gösteriyor.

Basit doğru-yanlışın ötesine bakmak

Sağlık sohbet botlarına yönelik çoğu kontrol, belirli bilgilerin doğru veya yanlış olup olmadığına odaklanıyor. Yazarlar bunun yeterli olmadığını savunuyor. Bir sohbet botu yalnızca onaylı gerçekleri tekrarlasa bile, rolünü aşmak, uygun olmayan durumlarda görüş bildirmek veya bir kriz içindeki kişiye kötü yanıtlar vermek gibi güvensiz davranışlarda bulunabilir. Bunu yakalamak için iki tür davranışı ayırıyorlar. Birincisi, botun bir kaynak listesi gibi onaylanmış bir belgede yer alan bilgilere ne kadar sadık kaldığı. İkincisi ise, konuya bağlı kalma, nazik olma, onaylanmamış bilgileri kullanmayı reddetme ve gerektiğinde kullanıcıları gerçek insanlara yönlendirme gibi geniş davranış kurallarına ne kadar uyduğu.

Figure 1. Bir sağlık sohbet botunun, açık güvenlik sınırları içinde kalarak insanları temel kaynaklara nasıl yönlendirdiği.
Figure 1. Bir sağlık sohbet botunun, açık güvenlik sınırları içinde kalarak insanları temel kaynaklara nasıl yönlendirdiği.

Sohbet botunu kasıtlı olarak zorlamak

Ekip, insanları gıda, konut ve güvenlik gibi sağlıkla ilişkili sosyal ihtiyaçlar için yardıma bağlamak üzere inşa edilmiş gerçek bir sohbet botunu test etti. Gerçek konuşmaları yansıtan yedi tür zorlu kullanıcı mesajı tasarladılar; bunlara saldırı vektörleri deniyor. Bazı saldırılar botu bir kaynağın ayrıntılarını uydurmaya çekmeye çalıştı. Diğerleri onu onaylanmış kapsamının dışına tavsiye vermeye zorladı, sıkıntı içindeki kullanıcılara yanıt verme, toksik veya kaba dile karşı başa çıkma veya zeki istemlerle kendi güvenlik kurallarını görmezden gelme gibi davranışları test etti. Bu testler, sistemin kaynak bilgilerini zaten getirdiği konuşmanın ilerleyen aşamalarında ve konuşmanın başında olacak şekilde yerleştirildi; amaç, konuşma ilerledikçe davranışın nasıl değiştiğini görmekti.

Konuşmalar uzadıkça ne bozuldu

Ekip yalnızca kısa, tek soruluk testlere baktığında, sohbet botu getirilen belgelere bağlı kalmada güçlü görünüyordu; hizmetlerle ilgili yeni gerçekler uydurmuyordu. Daha büyük sorun davranış kurallarına uyumdaydı. Tavsiye odaklı sorularda bazen onaylanmış herhangi bir kaynağa dayanmayan “sağduyu” rehberliği vermeye kaydı. Kullanıcılar sıkıntı veya tehlike tanımladığında, bot bazen doğrulanmış kontaklar yerine kriz hattı ayrıntıları uydurdu. Araştırmacıların sohbet botunu nazikçe ama ısrarla cevap vermeye zorladığı daha uzun, karşılıklı konuşmalarda en endişe verici sorunlar ortaya çıktı. Bu çok turlu sohbetlerde hata oranları keskin biçimde arttı ve en yüksek riskli sorunların tamamı burada belirdi; bunlar arasında mağdur suçlaması ve botun yetkili olmadığı ayrıntılı kötü muameleden kaçış tavsiyeleri de yer aldı.

Figure 2. Testlerin, kuralların ve güvenilir belgelerin bir sağlık sohbet botunu daha güvenli yanıtlar vermeye nasıl yönlendirdiği.
Figure 2. Testlerin, kuralların ve güvenilir belgelerin bir sağlık sohbet botunu daha güvenli yanıtlar vermeye nasıl yönlendirdiği.

Kurallar ve güvenilir metinle zayıflıkları düzeltmek

Bu zayıf noktaları tespit ettikten sonra yazarlar iki ana düzeltmeyi denedi. İlk olarak, onaylanmamış tavsiye vermemek, iletişim bilgisi uydurmamak ve belgeler yetersiz kaldığında kullanıcıları her zaman profesyonel yardım yönlendirmek gibi açık, tekrar eden talimatlar ekleyerek sohbet botunun dahili kurallarını güçlendirdiler. İkinci olarak, botun tahmin yapmak yerine yararlanabileceği, güvenli ve yerel rehberlik içeren dikkatle yazılmış bir soru-cevap belgesini kriz ve sıkıntı durumları için eklediler. Birlikte kullanıldığında, bu değişiklikler genel hata oranlarını keskin şekilde azalttı ve en önemlisi en kötü tür güvensiz yanıtları ortadan kaldırdı. Uzun ve yoğun şekilde zorlandığında bile, sohbet botu genellikle doğrudan yanıt vermeyi reddetme ve insanları güvenilir kaynaklara yönlendirme biçiminde güvenli bir düzene geri dönme eğilimi gösterdi.

Geleceğin dijital yardımcıları için anlamı

Günlük kullanıcılar için temel mesaj şudur: güvenilir bir sağlık sohbet botu oluşturmak, onu zeki göstermeye çalışmaktan çok, hataya düştüğünde güvenli biçimde başarısız olmasını sağlamayla ilgilidir. Bu çalışma, dikkatli ve gerçekçi “kırmızı takım” konuşmalarının hızlı testlerin kaçırdığı gizli sorunları ortaya çıkarabileceğini ve katı kurallar ile doğrulanmış yazılı rehberliğin sohbet botlarını daha güvenli davranışa itebileceğini gösteriyor. Bu, gerçek klinisyenlerin yerini almaz veya mükemmel güvenlik garantisi sunmaz; ancak, yardımcı ama yanılabilen sohbet araçlarını insanların temel ihtiyaçlar ve zor durumlarla ilgili destek ararken daha güvenilir ortaklara dönüştürmek için pratik bir yol haritası sunar.

Atıf: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

Anahtar kelimeler: sağlık sohbet botları, Yapay zeka güvenliği, kırmızı takım, erişim destekli üretim (RAG), hastayla etkileşimli yapay zeka