Clear Sky Science · ja

産科専門医が評価した妊娠関連の質問に対するAI言語モデルの応答の評価

· 一覧に戻る

妊婦にとってなぜ重要か

妊娠は疑問の多い時期であり、今では多くの人が手早く答えを得るためにオンラインツールやチャットボットに頼ります。本研究は単純だが重要な問いを投げかけました──日常的な妊娠の懸念に関して、現行の代表的な人工知能(AI)チャットボットは、医師が信頼できるような明確で正確かつ安心させる情報をどれだけ提供できるのか?

三つのデジタル「回答エンジン」の比較

トルコの研究者は、よく知られた三つのAI言語モデル──旧版のChatGPT(3.5)、新版(4.0)、およびGoogleのGemini──を比較することにしました。彼らは、避けるべき食品、運動や性行為の安全性、初期の出血が意味すること、胎児の動きをどう捉えるか、緊急を要する注意兆候など、妊婦が頻繁に尋ねる10のありふれた質問に焦点を当てました。各質問は同じ単純な指示で全モデルに入力され、回答がおしゃべりや創作的にならないようランダム性を抑える設定が用いられました。

各モデルは質問ごとに一つの回答をトルコ語で生成し、追加入力や編集は行いませんでした。回答はどのシステムが書いたかを示す手がかりを削除され、無作為に並べ替えられました。こうして産科・婦人科の専門家による評価者は、ブランド名や想定される文体に影響されることなく、目の前の文章のみを評価できるようにしました。

Figure 1
Figure 1.

医師はどのように回答を評価したか

初期キャリアの医師から非常に経験豊かな臨床医まで含む75人の産科専門医が、匿名化された30の回答すべてに採点を行いました。各回答について、彼らは五段階評価で四つの特性を評価しました:正確性(現行の医学知識やガイドラインと合致しているか)、信頼性(内部で矛盾がなく危険な助言がないか)、患者に優しい表現か(非専門家に対して適切で安心感を与える語調か)、および理解しやすさ(言葉が明瞭で構成が整っていて追いやすいか)。総計で専門家は9,000件の個別評価を提供しました──これは三つのAIツール間の有意な差を検出するのに十分な大きなデータセットです。

研究チームは次に評価尺度向けの統計手法を用いてモデルを比較しました。また、異なる医師が同じ回答をどれだけ一貫して評価したかを確認し、より経験豊かな臨床医が若手と比べて評価を変えるかも検討しました。目的は動作するチャットボットを作ることではなく、現実的な妊娠質問に対して統制された条件下でこれらのシステムがどのように振る舞うかを慎重にスナップショットで示すことでした。

どのチャットボットが最も良かったか?

総じて、新しいChatGPT-4.0が最も優れている結果となりました。医師らはその回答を最も正確で患者に優しく、信頼性でも最良と評価しました。Geminiは概ね中位に位置しました:その応答はしばしば明快で読みやすく、純粋な理解しやすさではChatGPT-4.0と類似していましたが、やや詳細や精度に欠ける傾向がありました。旧型のChatGPT-3.5は一貫して低い評価を受け、短めだったり説明が不十分だったりすることが多く見られました。興味深いことに、基本的な明瞭さや構成に関しては三モデルとも比較的似通っており、文章を読みやすくすることは、すべての医学的細部を正確かつバランスよく保証することより容易であることを示唆しています。

Figure 2
Figure 2.

医師たちの評価は互いに高い一致を示しており、結果が一部の異常な意見によって左右されたわけではないことを示しています。より経験のある臨床医は総じてやや高めの信頼性スコアを付ける傾向がありましたが、友好的さや理解しやすさに関する見解に大きな差はありませんでした。

実際の利用における意味

一般の利用者にとっての要点は、特にChatGPT-4.0のような現代のAIツールが、産科専門医の多くが合理的に正確で安全かつ読みやすいとみなす妊娠情報を既に提供しうる、ということです。とはいえ、本研究は重要な限界も示しています:最良のシステムであっても医師ではありません。研究者らはチャットボットの回答を公式ガイドラインの“金標準”と比較しておらず、患者が実際にその助言をどう解釈し行動するかも検証していません。研究は完全にトルコ語で行われたため、他の言語や文化での性能は異なる可能性があります。

平たく言えば、これらのAIチャットボットは、特に診療所への受診が遠い場合や医療者との時間が限られているときに、妊娠について学ぶための有用な補助になり得ます。しかし、医療専門家との会話を置き換えるべきではありません。著者らは、誤りを見抜き誤った安心感を避け、高リスクあるいは微妙な状況があれば対面での個別ケアが確保されるよう、専門家による監督が依然として不可欠であると強調しています。

引用: Keyif, B., Yurtçu, E., Başbuğ, A. et al. Evaluation of AI language models in answering pregnancy-related questions assessed by obstetrics specialists. Sci Rep 16, 9322 (2026). https://doi.org/10.1038/s41598-026-40609-0

キーワード: 妊娠教育, AIチャットボット, オンライン健康アドバイス, 産科, 患者情報の質