Clear Sky Science · ja
非構造化臨床記述からの診断推論に関する大規模言語モデルの評価:てんかんを対象に
患者と医師にとっての重要性
発作が起きたとき、その見た目や感覚は脳内で何が起きているかを示す重要な手がかりになります。医師はこうした記述を基に、発作が脳のどの部位で始まっているか、手術を含むどの治療が有効かを判断します。本研究は、チャットボットなどの背後にあるのと同じ種類の人工知能である大規模言語モデルが、実際の発作記述を信頼して解釈し、この種の診断的推論を支援できるかを問います。

発作の語りを脳の手がかりに変える
研究者たちは、短時間の異常な脳活動の急増により発作が起きる疾患であるてんかんに焦点を当てています。日常診療では、臨床医が患者や目撃者の話に注意深く耳を傾け、咀嚼様動作や異常感覚、激しい四肢のもがきなどの特徴を記録します。これらの詳細はしばしば側頭葉や前頭葉など特定の脳領域を示唆します。研究チームは、約1200件以上の発作記述が、患者が無発作となった手術結果に基づいて7つの大まかな脳領域に結び付けられている大規模な公開データセットを基に構築しました。これは、真の発作源が除去されたことを示す強い指標です。
多数のAIモデルを試験する
広く使われている汎用システムや医療テキストで調整された2つのモデルを含む8種類の言語モデルが評価されました。各モデルには発作記述が与えられ、7つの脳領域のそれぞれで発作が始まった可能性を出力するよう求められました。研究者たちは、最上位の選択がどれくらい正しかったかだけでなく、モデルの自信度が現実とどれほど一致するか、そして彼らが書いた説明がどれほど妥当かも検査しました。結果は、常にもっとも頻度の高い脳領域を選ぶ単純なベースラインや、症例の一部を評価した2人のヒトてんかん専門医と比較されました。

プロンプトの文言がAIの振る舞いを形作る
タスクの指示の出し方は大きな影響を与えました。基本的な指示のみを与えた場合、ほとんどのシステムは偶然よりわずかに良い程度にとどまりました。いくつかの例示を見せる、段階的に考えるよう促す、あるいは臨床推論の専門家作成例を模倣させると性能は向上しました。最も強い改善は詳細な推論を促すプロンプトや、複数の独立した回答を組み合わせてより安定した決定を導く手法から得られました。こうした豊かな指示の下では、最良のシステムはこの特定の課題において人間の臨床医の精度に近づき、一貫性や自信度の較正も改善しました。
強み、盲点、そして人間によるチェック
詳細な検討で重要な注意点が明らかになりました。臨床専門家は上位2モデルの推論をレビューしました。1つのモデル、GPT-4は症状の理解、てんかん知識の正確な使用、論理の一貫性をより頻繁に示しました。また実在する学術論文を正しく引用する傾向もありました。もう一つの有力モデル、Mixtral-8×7Bは正しい答えに辿り着くことがあっても、症状の詳細を誤読したり、支持する事実や参照をでっち上げたりして誤った理由で結論に達することがありました。さらに、性能は発作記述の長さ、モデルに演じさせた臨床的役割、使用した言語によって左右されました。非常に短い、あるいは非常に詳細な記述が最良の結果を生み、専門医を演じさせると結果が改善し、非英語プロンプトの使用は精度を下げる可能性がありました。
今後の診療への示唆
著者らは、大規模言語モデルが管理された環境下で非構造化の発作記述を脳発作開始部位の有用な推定に変えうると結論づけています。慎重に設計されたプロンプトにより、発作徴候を大まかな脳領域に対応づける狭い課題に関しては、経験ある臨床医の性能に近づけることがあります。一方で、モデルは説得力のある口ぶりで誤った推論やでっち上げの情報に頼ることがあり得ます。この有望性とリスクの混在は、こうしたシステムが将来的に症例のトリアージや初期診断思考の支援に役立つ可能性を示しますが、徹底的な検証、厳重な監督、人間の専門性と併用して用いることが必須であることを意味します。
引用: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z
キーワード: てんかん, 発作半側性(セミオロジー), 大規模言語モデル, 診断推論, 臨床AI評価