Clear Sky Science · ja
口腔病理診断における人間と人工知能の比較:ChatGPT、Grok、MANUSの比較研究
次の歯科受診でこれが重要な理由
歯科医が口腔内に疑わしい病変を見つけたとき、それが無害か危険かの最終判断は通常、顕微鏡下で組織を詳しく観察する専門家が下します。この作業は慎重で時間がかかり、世界の多くの地域で専門家が不足しています。本研究は時宜を得た問いを投げかけます:現代の人工知能(AI)システムは、口腔組織の顕微鏡画像を人間の専門家に近い精度で読み取り、診断をより速く、より一貫して、より広く提供するのを助けられるでしょうか?

研究者が検証しようとしたこと
研究チームは画像とテキストの両方を理解することで知られる三つの高度なプログラム、ChatGPT、Grok、そして医療用システムのMANUSに焦点を当てました。実際の患者データは用いず、標準的な口腔疾患の教科書から選んだ100枚の鮮明で高品質な顕微鏡画像を用いました。各画像は前癌変から腫瘍、嚢胞、反応性増殖まで異なる病変を示していました。まず二人の経験ある口腔病理医が各スライドの正しい診断に合意し、機械と比較するための強固な人間の基準を作りました。
直接対決の方法
100枚の各スライドは、同じ短いケース説明メッセージと同じデジタル画像を用いて三つのAIシステムすべてに提示されました。モデルには、報告書を出す専門家と同様に「最もありそうな診断ひとつ」を答えるよう求めました。システムの回答の安定性を確かめるために、研究者は同じスライドと指示で二週間後に全過程を再実施しました。一方で、二人の人間病理医はAIの出力を見ずに独立してスライドを読んだ後、意見の相違があれば議論して最終合意に達しました。これら専門家の決定が利用可能な最良の答えとして扱われました。

機械と人間の成績
三つのAIツールはすべて目立って良好な成績を示しました。二回目の検査では、Grokは100例中97例、MANUSは96例、ChatGPTは94例を正しく同定しました。人間の二人はやや上回り、98枚を正しく分類しました。ChatGPTは両ラウンドでほぼ同一の回答を示し、非常に強い内部一貫性を示した点が際立っていましたが、MANUSとGrokも堅実で安定した性能を示しました。システム同士を比較すると、大多数の症例で一致しており、異なるAI設計でも同じ高品質な画像が与えられれば非常に似た判断に達し得ることが示唆されます。
AIが専門家の思考にどれほど近いか
正解と一致することは一部分に過ぎません。重要なのは、コンピュータが人間の推論パターンとどれほど一致するかです。この点で、MANUSは病理医の判断と最も近い整合性を示しました。MANUSが生の精度でGrokを上回らなかった場合でも、決定の方向性では専門家に近い傾向が見られました。Grokは全体としてやや正確でしたが、難しい少数の症例では専門家とは異なる選択に至ることがありました。三システムとも誤りの大半は、組織変化が重なっていたり二つの状態の境界上に見えるなど、訓練を受けた目でも視覚的に紛らわしいスライドで起きました。それでもモデル間の性能差は大きくなく、すべてのシステムは著者らが中程度から実質的(moderate to substantial)と表現する程度の人間との一致を示しました。
将来のケアに与える可能性のある影響
この研究は、今日のマルチモーダルAIシステムが口腔疾患の顕微鏡診断において信頼できる支援役を務め得ることを示唆しています。AIは病理医の代替ではなく、依然として最良の総合的精度と臨床判断を提供するのは病理医ですが、迅速なセカンドリーダーとして、若手専門家の教育を支えたり、歯科病理サービスへのアクセスが限られた地域に専門レベルの支援を提供したりする役割を果たす可能性があります。本研究は教科書から慎重に選ばれた画像を用いており、現実の臨床サンプルはより雑多であるため、より大規模で多様な臨床コレクションや患者情報を加えた追加検証が必要だと著者らは強調しています。もしこうした追加検査が初期の期待を裏付ければ、AIは口腔疾患の診断をより正確に、一貫して、そして世界中の患者にとってよりアクセスしやすくする可能性があります。
引用: Alshammari, A.F., Madfa, A.A. & Anazi, B.A. Human versus artificial intelligence in oral pathology diagnosis: a comparative study of ChatGPT, Grok, and MANUS. Sci Rep 16, 11057 (2026). https://doi.org/10.1038/s41598-026-40792-0
キーワード: 口腔病理, デジタル病理, 人工知能, 大規模言語モデル, 組織病理学的診断