Clear Sky Science · ru
Архитектуры на основе RAG для поиска побочных эффектов лекарств с использованием компактных больших языковых моделей
Почему это важно для повседневной медицины
Каждый, кто получал новый рецепт, вероятно, задавался вопросом: «Может ли эта таблетка вызывать мою головную боль или сыпь?» Врачи и пациенты сталкиваются с этим вопросом тысячи раз в день, но ответы скрыты в объёмных справочниках и базах данных. В этом исследовании изучают, как более компактные и эффективные системы искусственного интеллекта могут обращаться к существующему каталогу известных побочных эффектов лекарств, чтобы давать быстрые, точные и основанные на доказательствах ответы — без выдумок.

Задача отслеживания побочных эффектов лекарств
Побочные эффекты лекарств являются одной из основных причин заболеваний, госпитализаций и даже смертей во всём мире. Новые препараты появляются быстрее, чем занятые клиницисты успевают усвоить их риски, а пациенты всё чаще приходят с комплексной историей лечения. Традиционные инструменты — печатные руководства, электронные медицинские записи и системы отчётности — мощные, но медленные при поиске в условиях загруженной клиники. Большие языковые модели, те самые ИИ, что стоят за чат-ботами, кажутся идеальными, поскольку могут отвечать на вопросы простым языком. Однако на конкретные вопросы вроде «Вызывает ли этот препарат именно этот побочный эффект?» готовые модели, включая очень большие, часто предполагают или «галлюцинируют», давая ответы, которые не соответствуют лучшим доступным данным.
Обучение ИИ искать ответы вместо угадывания
Авторы решают эту проблему, изменив способ доступа ИИ к информации, а не просто увеличивая размер модели. Они исходят из курируемого ресурса SIDER — базы данных, в которой перечислено, какие отпускаемые на рынок препараты связаны с какими побочными эффектами. Затем они строят две «открытые» системы, которые вместо опоры на то, что модель выучила во время тренировки, явно выполняют поиск релевантных фактов в момент запроса и передают их компактной языковой модели. В текстовом подходе информация о связи "препарат — побочный эффект" хранится в виде записей и ищется с помощью движка сходства, который находит наиболее релевантные фрагменты. В графовом подходе, называемом GraphRAG, каждый препарат и каждый побочный эффект представляют собой узлы в сети, а связь между ними означает, что для данного препарата сообщали о соответствующем побочном эффекте. Обе системы завершают работу просьбой к небольшой языковой модели выдать простой ОТВЕТ «ДА» или «НЕТ», а также краткое объяснение, основанное только на найденных доказательствах.

Как графовый подход меняет правила игры
Чтобы протестировать эти конструкции, команда создала крупный сбалансированный бенчмарк почти из двадцати тысяч пар «препарат—побочный эффект», полученных из SIDER. Для каждого препарата они включили некоторые побочные эффекты, которые были известны как связанные с ним, и другие, которые не были. Компактные языковые модели, работающие в одиночку, без поиска, давали верный ответ лишь примерно в двух третях случаев — сопоставимо или хуже популярных универсальных чат-ботов. После добавления поиска производительность резко выросла. Текстовая конфигурация, где хранилась по одному предложению на пару «препарат—побочный эффект», достигла около 98–99% точности. Графовый GraphRAG пошёл ещё дальше, показав практически идеальные результаты: в почти каждом случае, если связь существовала в SIDER, система отвечала ДА, а если не существовала — НЕТ. Небольшие оставшиеся ошибки были связаны с финальной формулировкой языковой модели, а не с самим поиском.
Поиск всех препаратов за одним симптомом
Авторы также изучали обратную задачу, которая часто важна для клиницистов: «Какие препараты известны тем, что вызывают этот конкретный побочный эффект?» Здесь вместо одного решения «да/нет» система должна перечислить все подходящие препараты. И снова графовый подход проявил себя лучше всех. Поскольку он просто расширяется от заданного узла побочного эффекта ко всем связанным узлам препаратов, он возвращает точный список с очень низкой задержкой, даже когда вовлечены сотни лекарств. Сильный текстовый метод мог бы приблизиться к той же полноте, но только просматривая и собирая множество отдельных текстовых фрагментов, что делает его значительно медленнее. Команда также добавила небольшую нормализацию, при которой компактная языковая модель исправляет распространённые опечатки в названиях препаратов перед поиском, что заметно повышает устойчивость к реальным запросам вроде «floxetine» вместо «fluoxetine».
Что это значит для пациентов и врачей
Проще говоря, эта работа показывает, что самый разумный путь сделать ИИ безопаснее для вопросов о побочных эффектах лекарств — не просто строить всё более крупные модели, а связывать компактные модели с хорошо организованными медицинскими знаниями. Представляя известные связи «препарат—побочный эффект» в виде простого графа и заставляя ИИ основывать ответы на этой структуре, авторы могут практически исключить домыслы для каталогизированных ассоциаций. В результате получается система, которая быстро скажет врачу или пациенту, появляется ли сообщённый симптом в авторитетном списке побочных эффектов и какие препараты с ним связаны, при этом объясняя ответ простым языком. Хотя она не открывает новые побочные эффекты и не заменяет внимательное клиническое суждение, такой подход даёт практическую, масштабируемую основу для надёжных интерактивных инструментов, помогающих людям ориентироваться в рисках используемых ими лекарств.
Цитирование: Nygren, S., Erdogan, O., Avci, P. et al. RAG-based architectures for drug side effect retrieval using compact LLMs. Sci Rep 16, 12754 (2026). https://doi.org/10.1038/s41598-026-41495-2
Ключевые слова: побочные эффекты лекарств, медицинский ИИ, графы знаний, retrieval-augmented generation, фармаконадзор