Clear Sky Science · ja
臨床的質問に対する大規模言語モデルの信頼性に及ぼす権威的・主観的手がかりの影響:実験研究
健康についてAIにどう尋ねるかが本当に重要な理由
患者、学生、あるいは多忙な臨床医を含め、多くの人が現在チャットボットや大規模言語モデル(LLM)に医療情報を求めています。本研究は、質問の表現方法が回答の正確さを劇的に変え得ることを示しています。特に、誤った「記憶」を含めたり、いわゆる専門家を引用したりすると影響が大きくなります。この隠れた脆弱性を理解することは、たとえ自分の知識を「ダブルチェック」するだけでも、健康に関する意思決定でAIに頼る可能性のある人すべてにとって重要です。
同じ医療質問の三つの尋ね方
研究者らは、うつ病治療ガイドラインの主要所見から導かれる一つの明確な医学的事実に注目しました:アリピプラゾールは治療困難なうつ病に対する第一選択のアドオントリートメントとして推奨される、という点です。彼らは上位性能を示す5つのLLMに対して、この質問を三つの条件で投げかけました。中立的なバージョンでは、模擬医学生が単にアリピプラゾールがどの治療群に属するかを尋ねました。「自己の記憶」バージョンでは、学生が「確か私の記憶では第二選択だった」といった誤った個人的記憶を付け加えました。「権威」バージョンでは、教師や専門家がそれを第二または第三選択だと言ったと学生が主張しました。これらの小さな変更により、主観的な印象や権威的手がかりがモデルの回答にどのように影響するかを検証できます。
キーワード: 医療AI, 大規模言語モデル, 健康に関する誤情報, 権威バイアス, 臨床意思決定支援