Clear Sky Science · ja

治療計画の評価で人間とAIが対立する理由

2026-01-07 · 一覧に戻る

日常の医療にとってなぜ重要か

人工知能（AI）ツールが医師の治療選択を支援し始めるとき、重要な問いが浮かびます：誰の判断をより信頼すべきか――人間か機械か。本研究は単純だが不穏な可能性を検討しています。すなわち、医師とAIシステムは、どの治療が最良かだけでなく、そもそも「良い」治療計画とは何かという定義自体で意見が異なるかもしれない、という点です。このギャップを理解することは、AIが現実の医療判断を静かに歪めるのではなく支援するために不可欠です。

治療助言の直接対決テスト

研究者らは皮膚科に着目しました。皮膚科は長期にわたる病状を扱い、単一の「正解」がないことが多い分野です。経験豊富な皮膚科医10名と二つの大規模言語モデル（汎用モデルと推論重視モデル）に、重度の湿疹、他の疾患を伴う乾癬、妊娠に関連するニキビなど、作り話の難しい症例5例それぞれについて治療計画の作成を依頼しました。公平性を保つため、計60件の計画は長さ・構成・語調をそろえた共通フォーマットに編集されました。人間かAIかを示す明らかな手がかりは除去され、後の評価者がスタイルではなく内容を評価するようにしました。

人間とAIはどう評価したか

その計画は同じルーブリックを用いた二段階のブラインド評価にかけられました。まず同じ10名の皮膚科医が、効果性、安全性、実現可能性、患者中心性を考慮して、各計画を0から10で総合評価しました。次に、計画を書く役割は担わない別のAIモデルが、同じ指示で全く同じ計画を採点しました。重要なのは、どちらの人間評価者もAI審査者も、いかなる計画の作成者も知らされていなかった点です。この設定により、評価者が人間かAIかという一点を分離して検証できます。

人間は人間を支持し、AIはAIを支持する

結果は明確な「評価者効果」を示しました。人間が採点するとき、彼らは同僚の皮膚科医が書いた計画に対して、いずれのAIが作成した計画よりも高い評価を与えました。人間作成の計画は平均スコアがやや高く、ランキングの上位五位を占めました。AIのうち高度な推論モデルは下位近くに位置しました。しかしAI審査者が評価を担当すると状況は逆転しました。AIが作成した二つの計画がランキングの上位に上がり、すべての人間医師の計画はそれらより下になりました。平均すると、AI審査者は標準化された同一のテキストを読んでいるにもかかわらず、AI生成の計画を人間生成の計画より高く評価しました。

「良い」計画の捉え方の違い

計画は表現を標準化され、評価者は出典を知らされなかったため、著者らはこの分裂は表面的な洗練さでは説明できないと主張します。むしろ、人間とAIが異なる内部基準を持ち込んでいることを示唆します。臨床医は実臨床での経験に基づき、診療所で実行可能か、患者の反応や現実的なトレードオフがどうかといった点を重視する傾向があるでしょう。対照的に、大量のテキストで訓練されたAI審査者は、文献やガイドラインに頻出するパターンを好む可能性があり、それが地域的な制約や患者の嗜好を十分に反映しないこともあり得ます。本研究は規模が小さく――臨床医10名、症例5件、審査AI1台に限られ――評価は知覚された質を測るものであり、実際の患者転帰を示すものではありません。それでも、この逆転は臨床AIの評価方法に関する深い疑問を投げかけます。

臨床AIの試験と運用を再考する

これらの知見から著者らは二つの大きな教訓を引き出します。第一に、従来の「正解」を問う医療AIテストは、実際のケアで重要な多くの要素を見落としがちだということです。現場では効果、安全性、費用、物流、患者の希望を同時に考慮する必要があります。著者らは、これらの次元を明示的に評価する多面的な評価フレームワークを提唱し、複数の人間とAIの評価者を用い、意見の相違が生じる場所と理由を分析して単一スコアに還元しないことを主張します。第二に、人間とAIの判断の違いは欠陥だけでなく特性となり得る点です。慎重に用いれば、AI生成の計画は医師に自身の仮定を再検討させる思考の第二意見として機能し得ますし、医師はAIに欠ける現場の文脈や倫理的判断を提供できます。仮定を明示し、臨床医が優先度を調整でき、批判的なレビューを促す信頼できる透明なインターフェースを構築することで、この人間とAIの視点の緊張をより安全でバランスの取れた意思決定に変える手助けになるでしょう。

引用: Sengupta, D., Panda, S. Disagreement between human and AI evaluation of treatment plans. Sci Rep 16, 4798 (2026). https://doi.org/10.1038/s41598-026-35406-8

キーワード: 臨床意思決定支援, 医療における人工知能, 人間とAIの協働, 治療計画, 評価バイアス