Clear Sky Science · ja

日本の獣医師国家試験における生成型事前学習トランスフォーマーの性能評価

2026-02-16 · 一覧に戻る

より賢い獣医試験が誰にとっても重要な理由

動物病院の診察の背後には、何年にもわたる厳しい訓練と一度きりの高い重みを持つ国家試験があります。日本では、獣医を志す者は基礎生物学から複雑な臨床判断までを問う獣医師国家試験（NVLE）に合格しなければなりません。本研究は時宜を得た問いを立てました：今日の高度なAI言語モデル、いわゆる人気チャットボットを支える同種のモデルは、日本語でこの難関試験を解けるのか――そしてそれは獣医学教育や動物医療にとって何を意味するのか？

実際の獣医師国家試験でAIを検証する

研究者たちはOpenAIの三世代の大規模言語モデル、GPT‑4o、o1、o3に着目しました。これらのシステムは人間のような文章を読み書きするよう設計されていますが、獣医学専用に訓練されたわけではありません。試験のベンチマークとして用いたのは日本の第74回NVLE（2023年）です。試験は五つのセクションに分かれており、文章のみの問題と、X線画像や写真、図を示す画像問題が含まれます。すべての問題は現行の受験生が受ける実試験と同様に5肢択一です。モデルには標準化されたスクリプトを通じて各問題を与え、解答は選択肢の番号だけで返すよう制約し、「説明」や交渉によって得点を稼ぐ余地がないようにしました。

どのAIモデルが優れたか？

三つのモデルがもっとも単純な条件――日本語の問題と素直な指示プロンプト――で第74回NVLEに挑んだところ、二つの明確な傾向が見られました。まず、すべてのモデルが文章中心のセクションで高い成績を示しましたが、o1とo3は一貫してGPT‑4oより高得点でした。次に、画像を多く含むセクションでは成績が低下しましたが、それでもo1とo3は公式の最低合格ラインを上回り、GPT‑4oはそのうちの一セクションで基準を下回りました。全体ではGPT‑4oが約78％の正答率、o1は約92％、o3は約93％でした。総合得点でわずかにo1を上回ったため、研究者たちは残りの実験にo3を選びました。

プロンプトや翻訳は本当に有効か？

複雑な指示を工夫してAIからより良い回答を引き出す「プロンプトエンジニアリング」や、モデルの訓練データに合わせてローカルな問題を英語に翻訳する手法については多くの議論があります。本研究ではo3を用いてこれらの手法を直接検証し、基本的な解答プロンプトとより詳細に最適化したプロンプトを比較し、さらに日本語の問題と同モデルで英訳したバージョンを比べました。驚くべきことに、これらの変更はいずれも有意な差を生みませんでした：o3は六つの組み合わせすべてで安定して合格し、最も単純な手法（原文の日本語＋基本プロンプト）が複雑な設定と同等に機能しました。これは少なくともこれらの獣医学問題に関して、最新モデルが日本語を確実に理解しており、高度なプロンプト設計を必要としないことを示唆します。

新しい試験での性能はどれほど安定するか？

この高い成績が偶然かどうかを検証するため、研究チームはo3に第75回（2024年）および第76回（2025年）NVLEも与え、引き続き原文の日本語問題と通常のプロンプトのみを用いました。モデルは両試験とも総合得点で92％を超え、画像を多く含む領域を含めすべてのセクションで合格ラインを上回りました。独立した三回の実行で多くの問題が同じ解答を示し、多少のランダム性が許されてもo3の応答は概ね安定していました。誤答を詳しく調べると、誤りは主に二つの領域に集まっていました：現場の実務的知識（例：日本の獣医関連法規）と、国ごとの規則や複数段階の推論を要する臨床医学です。これらは単純な事実照会よりも複雑な判断を要求します。

意味すること、そして意味しないこと

研究は、最先端のGPT型モデルが翻訳や複雑なプロンプトを使わなくても日本語で日本の獣医師国家試験に合格できるようになったと結論づけています。獣医学教育や受験生にとっては、AIを学習パートナー、問題作成者、試験項目の解説者として活用する道が開かれます。一般には、AIが獣医学知識を整理・共有する強力なツールになりつつあることを示唆します。しかし著者らは、これらのシステムが獣医師に取って代わったり、自律的に医療判断を下したりする準備ができているわけではないと強調します。モデルは画像を誤解したり、微妙な臨床判断に弱かったり、時には事実を捏造したりすることがあります。慎重に使えば獣医学教育や情報支援の有益な補助になり得ますが、動物の健康に対する最終的な責任は引き続き人間が負うべきです。

引用: Kako, T., Kato, D., Iguchi, T. et al. Performance evaluation of generative pre-trained transformer on the National Veterinary Licensing Examination in Japan. Sci Rep 16, 4306 (2026). https://doi.org/10.1038/s41598-026-37300-9

キーワード: 獣医師国家試験, 大規模言語モデル, 医療における人工知能, GPTの性能, 日本の獣医学教育