Clear Sky Science · ja

2023年ブラジルポルトガル語医療レジデンシー試験における選択された大規模言語およびマルチモーダルモデルのゼロショット性能

· 一覧に戻る

なぜ医師と患者にとって重要なのか

人工知能は急速に病院や診療所に導入されつつありますが、これらのシステムの多くの評価は英語で行われています。本研究は単純かつ重大な問いを立てました:今日の大規模AIモデルは、胸部X線などの画像を含むブラジル・ポルトガル語で書かれた実際の医療試験問題をどれほど正しく扱えるか。この答えは、これらのツールが英語を主要言語としない国々の医療支援にどれだけ備えているかを、医師、教育者、政策立案者が判断する助けになります。

AIを実際の医療入試で試す

研究者らは、ブラジルの有力な教育病院の2023年の医療レジデンシー入試を用いました。この試験は毎年何千人もの若手医師が受験するもので、内科、外科、小児科、婦人科・産科、公衆衛生を網羅する117問の多肢選択式問題で構成されています。問題の大半は文章のみですが、放射線画像、臨床写真、診断トレーシングなどを含む問題が3分の1以上あります。テキストのみのモデル6種と、画像も扱えるマルチモーダルモデル4種が"ゼロショット"設定で挑戦しました:このテストに特化した事前例や微調整は与えられず、選択肢を選び理由を説明するという標準的な指示だけで評価されています。

Figure 1
Figure 1.

文章問題に対するモデルの知性はどの程度か?

文章のみの問題では、成績に大きな幅がありました。最も成績の低いシステムは5問に1問強しか正解できず、最良のモデルはおよそ10問中7問を正解しました。Claudeと呼ばれる系列のモデルがトップに立ち、約70パーセント前後のスコアでGPT‑4.0 Turboをわずかに上回り、いくつかのオープンソースや商用の競合より明確に高い成績を示しました。ただし、多くの数十億パラメータを持つあるオープンソースモデルはリーダーに肉薄しており、強力な性能が独占的な商用システムに限られないことを示唆しています。研究者らがこれらのAIスコアを受験者の成績分布と比較すると、最良のモデルは応募者集団の中位付近に集まりました:優等生というよりは、試験を受ける平均的な新米医師と同程度の成績です。

画像は依然としてAIをつまずかせる

画像が加わると状況は変わりました。テストされた4つのマルチモーダルモデルでは、画像ベースの問題を含めると正答率が低下し、特に放射線関連の問題では50パーセントを下回ることが多く見られました。混合された文章+画像の問題で文章のみとほぼ同等のスコアを維持したのは、最も進んだモデルだけでした。領域別に見ると、システムは公衆衛生と小児科で最も良い成績を示し、放射線やその他の画像中心の問題で最も低かったことから、現在の学習データとモデル設計が医用画像よりも文章資料を優先している可能性が示唆されます。研究に関わった臨床医は、画像問題が人間にとって本質的に難しいとは感じていませんでしたが、入手可能なデータでは問いごとの人間との直接比較ができなかったため、性能差が画像推論によるものか問題難度によるものかは不明のままです。

Figure 2
Figure 2.

説明の中身をのぞく

単なる正誤判定を越えるために、研究チームは3人の経験ある医師に1つのマルチモーダルモデルが出力した説明をレビューしてもらいました。医師たちは、AIが問題を正しく解釈しているか、推論が選択した答えと整合しているか、そしてその助言に従うことで患者に害が及ぶ可能性があるかを評価しました。モデルが正答した問題では、その説明は概ね首尾一貫しており安全と判断されることが多かったのに対し、不正解の問題では誤導的あるいはでっち上げられた推論(いわゆるハルシネーション)が頻繁に見られました。どの説明が問題かについて医師間で意見が分かれることもあり、これは医療判断に内在するグレーゾーンを反映していますが、AIの答えが明らかに誤りで潜在的に危険な場合には評価の一致が高まりました。

日常診療におけるAIの意味

総じて、本研究は現在の大規模AIモデルが、少なくとも文章のみの問題に関しては、ブラジル・ポルトガル語で書かれた難度の高い医療試験で平均的な人間の成績に迫りうることを示しています。しかし、医用画像には依然として弱く、自信を持って誤った説明を示すことがあり、これを批判的に扱わなければ臨床家を誤導する恐れがあります。これらの発見は、現行システムの可能性と限界の両方を浮き彫りにしています:特に文章の読み取りや要約ではポルトガル語圏の医療に役立つ補助者になり得ますが、訓練を受けた医師に代わるものや複雑なマルチモーダル診断を監督なしに扱う準備はまだ整っていません。

引用: Truyts, C.A.M., Rabelo, A.G., Souza, G.M.d. et al. Zero-shot performance of selected large language and multimodal models on the 2023 Brazilian Portuguese medical residency exam. Sci Rep 16, 11756 (2026). https://doi.org/10.1038/s41598-026-42829-w

キーワード: 医療AI, 大規模言語モデル, ポルトガル語圏の医療, マルチモーダル診断, 医学教育