Clear Sky Science · ja
体系的なベンチマーキングにより、大規模言語モデルは従来の希少疾患診断支援ツールの診断精度に達していないことが示された
患者と医師にとってなぜ重要か
希少疾患の患者は、正しい診断に至るまでに何年もの不確実性、繰り返しの検査、複数の専門医受診を余儀なくされることがあります。一方で、大規模言語モデルと呼ばれる強力な新しい人工知能システムは、医療のゲームチェンジャーになると期待されています。本研究は、単純だが重要な疑問を投げかけます:これらの新しいAIチャットボットは、医師が既に使っている専門のツールよりも希少な遺伝性疾患を見つけるのに優れているのか、それともまだ改善の余地があるのか?
希少疾患と回答に至る長い道のり
各希少疾患は比較的少数の人にしか影響しませんが、1万を超える疾患が存在し、合わせれば最大で12人に1人に影響するとされています。多くの患者は、誰も異常を特定できるまでに5〜7年に及ぶ「診断の旅」を経験します。遺伝性疾患では、重要な段階の一つが、個々の患者の症状、検査結果、画像所見の組み合わせを既知の疾患パターンと照合することです。確立されたコンピュータープログラムは、標準化された医学的特徴の語彙を用いて数千の候補疾患を検索することで、既にこの作業を支援しています。
チャットボットと従来ツールの対決
研究者らは、確定診断のある実際の匿名化された症例を5,000件以上集めました。各症例は、年齢や性別、症状、検査所見を共通の医療辞書で符号化する構造化フォーマットに慎重に変換されていました。これらの構造化記録から、研究チームは自動的に短い症例記述を生成し、一般用途のモデルや医療テキストで特に訓練されたモデルを含む7種類の言語モデルに提示しました。並行して、同じ構造化データを広く使われている希少疾患診断支援プログラムであるExomiserに投入しましたが、公平な比較にするために遺伝子配列情報は与えませんでした。

正しい疾患を見つけたかの評価方法
チャットボットと従来ソフトの回答を比較するのは簡単ではありません。言語モデルは自由形式のテキストで応答し、疾患名や詳しさの程度が異なる場合があるからです。「十分に近いか」を人間の判断に頼らないため、研究チームは提案されたすべての診断を統一された疾病カタログにマッピングしました。モデルの提案は、正確な疾患名と一致する場合、同義の名称である場合、あるいは明らかに真の病態を包含するやや一般的な表現である場合に正解とみなされました。各症例について、正解がモデルの順位付けされたリストのどこに出現したかを測定しました—1位、上位3つの中、または上位10の中のいずれかです。
直接比較の結果
5,213症例全体にわたって、Exomiserはテストしたすべての言語モデルを明確に上回りました。症状情報のみを用いた場合、Exomiserは約3例に1例で正しい診断を1位に配置し、上位10位以内に入るのは半数をはるかに超えていました。最も成績の良かった言語モデル(推論に重点を置いたシステム)でも、1位は約4分の1未満、上位10位は3分の1強にとどまりました。他の医療特化モデルは著しく低い成績を示し、非常に大規模なある医療モデルはほとんど正しい疾患を示唆しませんでした。これらの傾向は、心臓、脳、免疫に関連する障害を個別に調べた場合や、症状記述の詳細度で症例を分けた場合でも一貫していました。

診断におけるAIの将来への示唆
本研究は、言語処理能力が優れているにもかかわらず、現時点の大規模言語モデルは症状記述のみから希少な遺伝性疾患を診断する点で、専門化されたツールほど信頼できないことを示しています。言語モデルは、医師が可能性を考える手助けをしたり、病状を平易な言葉で説明したりするアシスタントとしては依然有用であり得ますが、命や長年の遅延した答えがかかっている状況で確立されたソフトウェアの代替とすべきではありません。著者らは、より有望な進め方は、言語モデルを信頼できるバイオインフォマティクスツールと置き換えるのではなく、慎重に設計された診断パイプラインに組み込み、併用する形にすることだと主張しています。
引用: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5
キーワード: 希少疾患, 医療診断, 大規模言語モデル, 臨床意思決定支援, 遺伝性疾患