Clear Sky Science · ru

Сравнительный анализ больших языковых моделей как инструментов поддержки принятия решений в оральной патологии

· Назад к списку

Почему умные чат‑боты важны в стоматологической медицине

Сегодня у большинства людей в кармане есть мощный искусственный интеллект в виде дружелюбных чат‑ботов, которые отвечают на вопросы за секунды. Но могут ли эти инструменты безопасно помогать врачам интерпретировать тонкие изменения тканей, которые показывают, является ли образование в полости рта безвредным или это начало чего‑то серьёзного? В этом исследовании задают именно такой вопрос, сравнивая четыре широко используемых чат‑бота, чтобы выяснить, насколько хорошо они поддерживают специалистов, диагностирующих заболевания по описаниям под микроскопом оральных тканей.

Figure 1
Figure 1.

Как исследование испытывало чат‑ботов

Исследователи собрали 102 реальных отчёта с описанием того, что патологи видели под микроскопом в биоптатах полости рта и челюстей. Эти отчёты охватывали широкий спектр проблем — от простых скоплений слизи и фибром до потенциально злокачественных изменений, таких как дисплазия эпителия полости рта и плоскоклеточный рак. Для каждого случая команда вводила в четыре чат‑бота одинаковый текст отчёта и базовые данные пациента (возраст, пол, локализация поражения): ChatGPT‑4.0, ориентированный на рассуждение ChatGPT o1‑preview, Meta AI на базе LLaMA‑3 и Gemini от Google. Каждому боту просили назвать один основной диагноз и три возможных альтернативы, имитируя ситуацию, когда клиницист ищет быстрое второе мнение.

Оценка ответов по сравнению с экспертами‑людьми

Два сертифицированных врача‑оральных патолога независимо друг от друга, а затем в консенсусе, сравнивали основное предположение каждого чат‑бота с исходным диагнозом в больничной документации. Они распределяли ответы по трём категориям: явно неверно; схоже или частично верно (например, указана только часть комбинированного диагноза или использована иная, но клинически эквивалентная формулировка); или полностью верно. Команда также проверяла, мог ли чат‑бот, пропустив основной диагноз, всё же перечислить правильный вариант среди трёх альтернатив. С помощью стандартных статистических методов сравнивали, как часто каждая система совпадала с экспертами, и изучали, менялись ли результаты в зависимости от возраста или пола пациента.

Figure 2
Figure 2.

Какой чат‑бот подошёл ближе всего к специалистам

Лучшей по надёжности поддержки оказался ориентированный на рассуждение ChatGPT o1‑preview: его основной диагноз совпадал с экспертами примерно в двух случаях из трёх (68,6 %), Meta AI шла почти вровень (65,7 %). ChatGPT‑4.0 показал средние результаты (59,8 %), тогда как Gemini отставал — правильные ответы в примерно каждой четвёртой ситуации (27,5 %). При более строгой оценке согласованности ChatGPT o1‑preview и Meta AI достигали того, что статистики называют «существенной» согласованностью с оральными патологами, ChatGPT‑4.0 демонстрировал «умеренную» согласованность, а Gemini — «плохую». Все чат‑боты лучше справлялись с распространёнными, чётко определёнными доброкачественными проблемами, такими как мукоцеле и фибромы, и стабильно испытывали трудности со сложными состояниями — например, дисплазией эпителия полости рта или редкими опухолями.

Где машины всё ещё уступают

Даже когда чат‑ботам давали список из трёх альтернативных диагнозов, они часто не включали правильный вариант, особенно Gemini и Meta AI. Исследование также показало, что у большинства моделей точность слегка снижалась у пожилых пациентов, возможно, потому что возраст‑связанные изменения тканей усложняют микроскопическую картину. При этом ни одна система не показала различий в зависимости от пола пациента. Авторы подчёркивают несколько причин для осторожности: «чёрный ящик» коммерческих ИИ, неизвестные тренировочные данные, неравномерное представление редких заболеваний и то, что чат‑боты видели только текстовые описания без микроскопических изображений, которыми обычно пользуются человеческие патологи.

Что это значит для будущей медицины

Для непрофессионального читателя главный вывод таков: современные разговорные ИИ иногда могут воспроизводить мнение эксперта в оральной патологии, но они далеки от того, чтобы быть достаточно надёжными в одиночку. Лучший из протестированных чат‑ботов примерно в двух случаях из трёх совпадал с экспертами и давал худшие результаты именно в тех ситуациях, где ошибка особенно критична — при необычных или ранних стадиях болезни. Авторы заключают, что на текущем этапе эти инструменты следует использовать лишь как вспомогательные: для обучения, уменьшения нагрузки и быстрой вторичной оценки, но ни в коем случае не как замену обученным патологам. При наличии лучших данных, чёткого регулирования и тщательной проверки такие системы могут со временем стать безопасными помощниками в диагностике, но пока человеческая экспертиза остаётся решающей.

Цитирование: Alvarez-Silberberg, V.I., Alvarez-Silberberg, C.P., Galletti, C. et al. Comparative analysis of large language models as decision support tools in oral pathology. Sci Rep 16, 11272 (2026). https://doi.org/10.1038/s41598-026-41533-z

Ключевые слова: оральная патология, искусственный интеллект, клиническая поддержка принятия решений, большие языковые модели, цифровая стоматология