Clear Sky Science · ja

診断とトリアージにおける大規模言語モデルと医療専門家の独立および協働パフォーマンス

2026-02-06 · 一覧に戻る

次の受診で知っておくべき理由

オンラインのチャットボットに症状を入力したり、AIアプリに何が問題か尋ねたりするとき、あなたは現在病院でも試験されているのと同じ種類の技術、すなわち大規模言語モデル（LLM）を利用しています。本研究は単純だが重要な問いを投げかけます：これらのツールは実際に病気をどれだけ正しく診断し、緊急度をどれだけ正しく判断できるのか、実際の医療専門家と比べてどうか――そして両者が協働したときに何が起きるのか？

研究者はどのように全体像を把握したか

著者らは単一のクリニックで単一のチャットボットを試したわけではありません。代わりに、2020年から2025年にかけて世界各地で行われた50件の研究の証拠を統合しました。これらの研究は眼科や脳画像から救急医療まで多くの専門分野を網羅しています。各研究では、医師と1つ以上のLLMに同じ実際の患者事例または注意深く設計された患者ケースの記述が提示されました。LLMは可能性のある診断を示すか、患者がどれだけ早急にケアを必要とするかを判断する必要があり、医師も同様の作業を行いました。いくつかの研究では、医師にAIの示唆を見せてそれが成績向上に寄与するかを評価したものもあります。

AI単独の実力はどれほどか？

全研究を通じて、AIツールはしばしば正しい診断を候補リストのどこかに含めることができましたが、1つだけの答えを選ばせると通常は医師に一歩及びませんでした。上位の推測だけを採点基準にした場合、LLMは平均で医療専門家より約11％精度が低かったです。許容される候補が増えるにつれてその差は縮小し、最終的には消えました。10件までの診断候補が認められると、AIは少なくとも医師と同等の確率で正解を含めるようになりました。トリアージの判断、つまり症状の緊急度や必要なケアレベルの評価では、AIと人間は全体としては同程度の成績を示しました。ただし、個々のモデルや試験設定によって結果に大きなばらつきが見られ、一部のツールの方がはるかに信頼できることを示唆しています。

医師がAIをチームメイトとして使うとどうなるか？

9件の研究は協働を直接調べました：医師はまず単独で作業し、その後LLMの支援を受けて同じ課題を繰り返しました。ここでは良いニュースが出ました。AIの支援を受けると、医師の総合的な精度は向上し、特に複数の診断候補が許される場合に顕著でした。たとえば、LLMの助けを得ることで、短い候補リストに対する精度は検討した選択肢の数に応じて約10〜40％向上しました。これは、AIが考え得る可能性を広げ、臨床医が見落としがちな状態を検討するよう促すブレインストーミングの相棒として特に有用であり、一方で最終判断は引き続き人間の専門家が下すという構図を示唆しています。

今日の結果が実際より良く見える理由

数値は有望に聞こえますが、著者らは既存の研究の多くが完璧からは程遠いと警告しています。多くは整った教科書風の症例要約や教育用に選ばれた珍しい症例に依存しており、実際の診療で患者が示す不完全で雑多な事情とは異なります。リアルタイムの患者を用いた研究はごく一部にとどまります。症例の選定方法、AIツールの設定、回答の評価方法などの詳細がしばしば欠けていました。スキャンや皮膚写真のような視覚情報はあまり使われておらず、画像のみを評価した場合は熟練した臨床医が明らかにAIを上回りました。研究者らはまた、若手臨床医と専門家がAI助言に対して異なる反応を示す可能性、データプライバシーや潜在的なバイアス、機械の示唆への過信といった問題が日常診療でほとんど検証されていない点を強調しています。

患者と医療の未来に向けて意味すること

総じて、本研究は現行のチャットボットやLLMがあなたの医師に取って代わる準備が整っているわけではないが、まもなく有用な補助役になる可能性があることを示唆しています。賢く使えば、より広い診断候補の生成やより正確な意思決定の支援に役立ち得ます。特に医師が最終判断を保持し、AIを最終結論ではなく第二の意見と位置付ける場合に有効です。しかし、これらのツールが日常診療に組み込まれる前に、著者らはより実世界に即した試験、明確な報告基準、安全性・公平性・プライバシーに関する強力な保護策が必要だと主張しています。患者にとっては、AIが将来的に診療チームの思考を広げ、迅速な行動を支える可能性がある一方で、信頼できるシステムは新薬や医療機器と同じく厳密に検証されなければならないということです。

引用: Chen, M., Wu, Y., Ma, J. et al. Independent and collaborative performance of large language models and healthcare professionals in diagnosis and triage. npj Digit. Med. 9, 222 (2026). https://doi.org/10.1038/s41746-026-02409-8

キーワード: 医療診断AI, 臨床トリアージ, 大規模言語モデル, 医師とAIの協働, デジタルヘルスの安全性