Clear Sky Science · ja
放射線科レジデント教育における在学中試験問題作成でのDeepSeekの性能
より良い試験問題が重要な理由
画像診断を学ぶ医師(研修医)は、自分の知識と患者に対する診療能力を定期的な試験で確認します。これらの試験問題を作るには専門家の多くの時間が必要であり、教育機関は人工知能ツールが支援できるかを検討しています。本研究は、DeepSeekという大規模言語モデルが放射線科レジデント向けの選択式問題を作成する仕事の一部を担えるか、またどの場面で人間の専門家が依然として不可欠かを検証しました。

研究者が明らかにしようとしたこと
中国の研究チームは、放射線科研修の重要な要素である在学中試験に着目しました。彼らは二つの対応する問題セットを比較しました。一方は国家の研修基準に従って経験豊富な放射線科医が作成した問題群、もう一方はDeepSeekが指定されたトピック、研修レベル、問題形式を明記したプロンプトに基づき中国語で生成した問題群です。すべての問題は同じルールに従い、使用前に上級放射線科医が正確性と公平性を確認してスクリーニングしました。
試験実験の仕組み
研究者はこれらの問題バンクから無作為にAI作成問題14問と専門家作成問題14問を選び、合計28問のオンライン試験に混ぜました。2年目または3年目の放射線科レジデント40名がこの暗記禁止の試験を受けました。各設問について、受験者は解答を選び、その問題がDeepSeek製か人間の専門家製かを推定し、難易度、カリキュラムとの適合性、全体的な質、臨床事例の現実感を評価しました。この設計により、得点だけでなく受験者が問題をどう感じたかも比較することが可能になりました。

AIが人間と匹敵する領域
試験全体を通じて、受験者の正答率はDeepSeek作成問題と専門家作成問題でほぼ同程度であり、受験者は出題元を見分けるのが得意ではありませんでした。最も単純な問題形式、つまり基礎的事実や明確な規則を問う設問では、DeepSeekの問題は人間作成のものと同様の成績を示しました。成績優劣の分離能力など、試験で用いられる客観的指標も、AIが作った基礎知識問題が概ね堅実であることを示していました。これは、AIがコア概念を補強する多くの単純な問題を作成し、教育者の負担を軽減できる可能性を示しています。
人間の判断が依然優位な領域
より豊かな患者物語や複雑な判断を伴う問題になると状況は変わりました。短い臨床場面を含む中程度の複雑さの問題では、受験者の正答率はAIと専門家の問題で同等でしたが、受験者は専門家作成の問題をより現実的でやや難しいと評価しました。特に実地経験が多い上級の研修医ほどその差が顕著でした。多段階の症例系列や判断を要する最も複雑な問題では、受験者は専門家作成問題で明らかに高得点を出し、DeepSeekの問題では得点が低くなりました。特に研修初期の受験者は、AIが作った実感の薄い臨床状況に惑わされたり混乱しやすい傾向がありました。
人とAIの協働の仕方
著者らは階層的なアプローチを提案しています。DeepSeekのようなツールは、標準的な事実や定義を網羅する数多くの基礎的で構造化された問題の草案作成に適しています。一方で、不確実性をどう考えるか、選択肢を比較検討する能力、臨床的価値判断を試す問題については人間の専門家が主導すべきです。AIは弱い問題を検出する支援にも使えますが、患者を診ることから得られる微妙な理解は専門家が補う必要があります。明確な境界と慎重な監督のもとでAIと専門家判断を組み合わせれば、試験問題の作成は効率化されるだけでなく、本当に重要な能力を測る試験が作れる可能性があります。
引用: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8
キーワード: 放射線教育, 試験問題, 人工知能, 大規模言語モデル, 医療トレーニング