Clear Sky Science · ru

Человек против искусственного интеллекта в диагностике заболеваний полости рта: сравнительное исследование ChatGPT, Grok и MANUS

· Назад к списку

Почему это важно для вашего следующего визита к дантисту

Когда стоматолог обнаруживает подозрительное пятно в полости рта, окончательное заключение о том, безопасно оно или опасно, обычно даёт специалист, изучающий ткани под микроскопом. Эта работа требует тщательности, занимает много времени, а во многих регионах мира специалистов не хватает. В этом исследовании поставлен своевременный вопрос: могут ли современные системы искусственного интеллекта помогать в чтении микроскопических изображений тканей полости рта с точностью, близкой к человеческим специалистам, делая диагностику быстрее, более согласованной и более доступной?

Figure 1
Figure 1.

Что исследователи решили проверить

Команда сосредоточилась на трёх продвинутых компьютерных программах, известных умением анализировать изображения и текст: ChatGPT, Grok и медицинской системе MANUS. Вместо реальных данных пациентов они использовали 100 чётких, высококачественных микроскопических изображений из стандартного учебника по заболеваниям полости рта. Каждое изображение демонстрировало разный тип изменений — от начальных предраковых изменений до опухолей, кист и реактивных разрастаний. Двое опытных специалистов по патологии полости рта сначала согласовали правильный диагноз для каждого слайда, создав надёжный человеческий эталон для сравнения с машинами.

Как проходило непосредственное сравнение

Каждый из 100 слайдов показывали всем трем системам ИИ с использованием одного и того же короткого сообщения, описывающего случай, и той же цифровой фотографии. Моделям предлагалось назвать единственный наиболее вероятный диагноз, так же как это сделал бы специалист при составлении отчёта. Чтобы проверить стабильность ответов во времени, исследователи повторили весь процесс через две недели с теми же слайдами и инструкциями. Тем временем двое патологоанатомов независимо читали слайды, не видя ответов ИИ, а затем обсуждали расхождения до достижения соглашения о финальном решении. Эти экспертные решения рассматривались как наилучший доступный ответ.

Figure 2
Figure 2.

Насколько хорошо выступали машины и люди

Все три инструмента ИИ показали впечатляющие результаты. Во втором раунде тестирования Grok правильно определил 97 из 100 случаев, MANUS — 96, а ChatGPT — 94. Пара человеческих специалистов показала чуть более высокий результат, правильно классифицировав 98 слайдов. ChatGPT выделялся почти идентичными ответами в обоих раундах, демонстрируя очень высокую внутреннюю согласованность, в то время как MANUS и Grok также показали стабильную и надёжную работу. При сравнении систем между собой они соглашались по подавляющему большинству случаев, что указывает на то, что разные архитектуры ИИ могут приходить к похожим суждениям при наличии одинаковых качественных изображений.

Насколько ИИ соответствовал мышлению экспертов

Совпадение с правильным ответом — лишь часть картины; важно также, насколько компьютеры склонны согласовывать свои выводы с паттернами мышления людей. Здесь MANUS показал наибольшее сходство с решениями патологоанатомов, даже когда по сырой точности он не превосходил Grok. Grok, хотя в целом был чуть точнее, в некоторых сложных случаях приходил к другим выводам, чем эксперты. Большинство ошибок всех трёх систем возникали на слайдах, которые были визуально запутанными даже для подготовленного глаза, где изменения тканей перекрывались или выглядели пограничными между двумя состояниями. Тем не менее существенных разрывов в производительности между моделями не было, и все три показали уровень согласия с людьми, который авторы описывают как умеренный до значительного.

Что это может значить для будущего ухода

Исследование указывает на то, что современные мультимодальные системы ИИ уже способны служить надёжными помощниками при микроскопической диагностике заболеваний полости рта. Они не заменяют патологоанатомов, которые по‑прежнему обеспечивают лучшую общую точность и необходимы для клинического суждения, но могут выступать в роли быстрых вторых читателей, поддерживать обучение новых специалистов или предоставлять консультационную помощь экспертного уровня в регионах с ограниченным доступом к услугам стоматологической патологии. Поскольку в исследовании использовались тщательно отобранные учебные изображения, а не «грязные» клинические образцы, авторы подчёркивают необходимость дополнительных испытаний на больших и более разнообразных клинических выборках и с учётом данных о пациентах. Если эти дальнейшие проверки подтвердят ранний потенциал, ИИ может сделать диагностику заболеваний полости рта более точной, согласованной и доступной для пациентов во всём мире.

Цитирование: Alshammari, A.F., Madfa, A.A. & Anazi, B.A. Human versus artificial intelligence in oral pathology diagnosis: a comparative study of ChatGPT, Grok, and MANUS. Sci Rep 16, 11057 (2026). https://doi.org/10.1038/s41598-026-40792-0

Ключевые слова: патология полости рта, цифровая патология, искусственный интеллект, модели крупного языка, гистопатологическая диагностика