Clear Sky Science · ja

最近および旧世代の大規模言語モデルと小児レジデントの小児科院内試験問題に対する比較成績

2026-04-02 · 一覧に戻る

医師と家族にとってなぜ重要か

人工知能ツールが病院や医学部に導入され始める中で、重要な問いは単純です：特に子どもの健康が関わる場合に、これらのシステムは研修中の医師の判断に本当に匹敵するのか？本研究は複数の主要なAI言語モデルが小児科の試験問題でどのように機能するかを調べ、将来のケアや教育に何を意味するかを探ります。

実際の試験問題でAIを検証する

研究者らは2016年から2023年にかけて韓国の大規模小児病院で行われた院内の小児科試験から498問を収集しました。これらの試験はレジデントが4年間の研修でどれだけ進歩しているかを測るために使われます。問題の多くは選択式で、新生児ケアや感染症から心疾患や集中治療まで幅広い専門分野を網羅していました。約5分の1の問題にはX線やスキャン、臨床写真などの医用画像が含まれ、残りは書かれた記述にのみ依存していました。

Figure 1. AIシステムと小児科レジデントは、子どもの健康に関する知識を問う筆記試験問題で比較される。

人間と機械の比較方法

三大系統それぞれの初期版と視覚能力を持つより新しい世代を含む、6つのよく知られたAI言語モデルがテストされました。モデルには単一問題ではなく試験問題冊子全体が与えられ、どの部分が問題文でどれが選択肢でどれが画像かを自分で判断する必要がありました。問題は元々は韓国語で書かれ、英語の医学用語が混在しており、慎重に確認された翻訳も用意されました。レジデントとAIは同じ採点規則で評価され、公式解答または受け入れられた同義語と一致すれば正答とみなされました。システムの安定性を確認するため、各テストセットは5回実行され、試行間の一貫性が算出されました。

小児科レジデントに対するAIの成績

成績は正答率として要約されました。予想どおり、人間のスコアは研修年次とともに上昇しました：初年度レジデントはやや半数を超える正答率だったのに対し、4年目のレジデントは約70パーセントに達しました。より新しいAIモデルは全体でさらに良い成績を示し、全問題で約78パーセントと最上級レジデントを明確に上回りました。旧世代のAIは上級レジデントと同等の成績でした。テキストのみの問題に絞ると、最近のモデルは4年目レジデントをおおよそ10ポイント上回りました。AIシステムは実行ごとのスコアがほぼ同一で、非常に高い一貫性を示しました。

Figure 2. AIモデルは小児科の試験問題に答える際、画像に基づく問題よりもテキスト問題をよりよく扱う。

画像でAIがまだ苦戦する領域

医用画像を含む問題になると状況は変わりました。画像を含む問題では、どのAIシステムも上級レジデントを上回ることはありませんでした。新しいモデルは旧モデルより良好で、視覚的項目で中程度の70パーセント台に達しましたが、それでもテキストのみ問題における強い成績には及びませんでした。この傾向はX線、スキャン、臨床写真などさまざまな画像タイプや広範な小児科トピックにわたって見られました。これらの結果は、言語モデルがテキストの読解と推論に強い一方で、特に小児の医用画像を理解する能力は依然として限られていることを示唆する他の研究結果と一致します。

ケアと教育にとっての意味

著者らは、これらの結果は教育面では有望だが臨床での直接利用に関しては慎重であるべきだと論じています。筆記試験での高く安定した成績は、これらのシステムが小児科の研修医に迅速な練習問題や説明を提供する有用な学習パートナーになり得ることを示唆します。しかし、選択式試験での成功が実際の患者に対する安全な運用を保証するわけではなく、臨床現場では情報がより混沌としており、判断は複雑で、画像の解釈が重要となります。要するに、今日のマルチモーダルAIツールは筆記の小児科試験で上級レジデントに匹敵するが、画像中心の課題では依然として劣り、臨床で人間の判断を代替する準備はできていません。

引用: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

キーワード: 小児科, 大規模言語モデル, 医学試験, 臨床意思決定支援, 医学教育