Clear Sky Science · ja

医療教育におけるDeepSeekとChatGPTの多指標比較評価:USMLEとCNMLEの比較

· 一覧に戻る

なぜより賢い試験支援が重要なのか

世界中の将来の医師は、患者を診療する前に厳しい免許試験に合格する必要があります。同時に、大規模言語モデルに基づく強力なチャットボットが学習パートナーとして一般化しつつあります。本稿では、DeepSeekとChatGPTという二つのシステムが、米国の医師国家試験(USMLE)と中国の医師国家試験(CNMLE)をどのように扱うかを詳しく検証し、重要な問いを投げかけます:これらのツールは本当に安全で準備の整った医師を育てるのに役立つのか、もし役立つならどのような安全策が必要か?

Figure 1
Figure 1.

二つの大きな試験、二つの強力なツール

研究者たちは、基礎科学から臨床的意思決定に至る広範な医学知識を試す国家試験であるUSMLEとCNMLEに着目しました。実際の問題を数百題収集し、USMLEのサンプル試験から243題、CNMLEの問題バンクから300題を使用し、内科、外科、小児科、精神科などのトピックを網羅しました。医療画像の参照を必要とする問題は除外し、両ツールがテキストベースの課題だけに直面するようにしました。研究チームは次に、ChatGPT用のGPT‑4o‑miniとDeepSeek用のDeepSeek‑R1という各システムの二つのバージョンを、英語と中国語の両方で呼び出し、実際の学生が試験準備中に行いそうな簡潔な指示を使って質問しました。

どちらがより良く答え、どれほど一貫していたか?

公平に比較するため、研究者たちは各システムでそれぞれの試験を三回実行し、回答が公式の解答と一致した頻度を測定しました。USMLEの問題では、DeepSeekが約93%の正答率でわずかに上回り、ChatGPTは約90%でした。CNMLEでもDeepSeekが約87%、ChatGPTが約79%と同様の差を示しました。DeepSeekは、最も複雑な臨床意思決定セクションを含むUSMLEの三つのステップすべてでChatGPTを上回り、CNMLEの四つのユニット全体でも特に中国語での基礎科学や臨床知識が重い分野で優位を示しました。研究チームはまた繰り返し実行した際の安定性も確認し、両者とも高い一貫性を示したものの、DeepSeekが再びわずかに強かったと報告しています。

声に出して考えるが、時に遅い

現代の言語モデルは、学生が論理を記述するように推論を段階的に示すことがよくあります。研究者たちは、これらの説明の文字数をカウントし、各システムが示した「思考」の量を粗く測定しました。USMLEでは両ツールは類似しており、同程度の長さの推論を提供しました。しかしCNMLEでは、DeepSeekが著しく長い説明を出す傾向があり、複雑な中国語の医学問題に取り組む際により深い、あるいは詳細な思考の連鎖を示していることが示唆されました。トレードオフは速度で、DeepSeekは両試験ともに完了により時間を要し、特にCNMLEで顕著でした。一方でChatGPTはより速く回答しました。言い換えれば、DeepSeekはより正確で冗長になりがちで、ChatGPTは効率を重視する傾向がありました。

Figure 2
Figure 2.

有望性、落とし穴、そして新たな安全網

平均して多くの人間の受験者より高い成績を示したものの、両システムとも重要な誤りを依然として犯しました。時にはもっともらしく聞こえるが誤った治療を選んだり、微妙な概念を誤解したりすることがあり、これはモデルが事実を自信を持って創作したり誤用したりする「幻覚(hallucination)」としてよく知られる問題です。同時に、正解が存在しない欠陥のある試験問題を見抜くなど、驚くべき強みも示しました。医療教育が患者安全と密接に結びついているため、著者らはこれらのツールを権威ではなく補助として扱うべきだと主張します。より安全な利用を支えるために、彼らはモデルを慎重に構築された医療知識グラフに結びつける技術的な「ファクトチェックループ」を提案します。モデルが質問に答えるとき、その主張を分解してガイドラインや教科書などの信頼できる情報源と照合し、信頼度を割り当てた上で学習者に提示するという仕組みです。

将来の医療教育にとっての意味

専門家でない人にとって、このメッセージは励みになると同時に慎重さを求めるものです。DeepSeekとChatGPTは既に筆記試験において多くの医学生と同等かそれ以上の成績を示しており、学習支援、演習問題、さらにはより豊かな段階的推論に基づく教育の再設計に有意義に役立つ可能性があります。しかし、それらの誤りや結論に至る過程の不透明さは、人間の教師や有資格の臨床医に取って代わることができないことを意味します。著者らは、このようなシステムが証拠を要求し、信頼性を追跡し、人間の判断を確実に主導権として保持する枠組みの中で厳密に監督された「アシスタントコーチ」として機能する未来を想定しています。慎重に構築・運用されれば、これらのAI支援は医療教育を単なる暗記から、より双方向的で生成的な学習へと徐々に転換し得ます—それでも最終目標を見失わないことが重要です:実際の患者に対するより安全な医療の提供。

引用: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2

キーワード: 医療教育AI, 大規模言語モデル, USMLEの成績, 中国の医師国家試験, ファクトチェックフレームワーク