Clear Sky Science · ru
SynRXN: открытый эталон и кураторский набор данных для вычислительного моделирования реакций
Почему важны более разумные данные по химии
Современная химия все в большей степени опирается на компьютеры при разработке новых лекарств, материалов и повседневных химикатов. Но даже самые продвинутые алгоритмы хороши лишь настолько, насколько качественны данные, на которых они учатся. Сегодня данные о реакциях разрознены: они находятся в патентах, статьях и лабораторных журналах в беспорядочных, несогласованных форматах, из‑за чего трудно оценить, действительно ли различные компьютерные инструменты улучшаются. В этой статье представлена SynRXN — открытая, тщательно курируемая коллекция наборов данных и тестов по реакциям, созданная, чтобы дать исследователям единое поле для оценки того, насколько хорошо их методы работают при планировании и анализе химических синтезов.

Разбиение сложной задачи на понятные этапы
Планирование синтеза с помощью компьютера предназначено помогать химикам понять, как получить целевую молекулу из более простых строительных блоков. Вместо того чтобы рассматривать это как единый монолитный вызов, SynRXN разбивает задачу на пять конкретных семейств задач, которые отражают практику химиков. Сначала идет исправление и дополнение записей о реакциях (восстановление баланса), затем отслеживание перемещения отдельных атомов от исходных веществ к продуктам (построчное соответствие атомов), затем отнесение каждой реакции к категории (классификация реакций), затем предсказание полезных численных свойств, таких как выходы реакций или энергетические барьеры (прогнозирование свойств реакции), и наконец прогнозирование того, какие продукты или исходные вещества вероятны для данного преобразования (предсказание синтеза). Определяя точные входы, выходы и меры оценки для каждого из этих этапов, SynRXN превращает запутанный рабочий процесс в набор четко поставленных задач.
Очистка шумных химических записей
Данные о реакциях из реального мира часто неполны: в патентах и электронных лабораторных журналах могут опускаться растворители, контр-ионы или побочные продукты, либо указываться невозможные количества атомов. SynRXN решает эту проблему в задаче восстановления баланса реакций, начиная с широко используемых наборов данных, полученных из патентов, и целенаправленно создавая примеры с определенными типами ошибок, такими как отсутствие неглеродных атомов или компонентов, пропавших на одной или обеих сторонах уравнения. Затем используется гибридный метод на основе правил и графов для восстановления баланса, при этом сохраняются только исправления с очень высокой уверенностью, а итоговый тестовый набор проверяется вручную. Для построчного соответствия атомов SynRXN собирает как органические, так и биохимические реакции из нескольких надежных источников и подвергает их строгим автоматизированным проверкам, чтобы гарантировать корректность молекул и их согласованное представление, прежде чем сравнивать, как разные инструменты отслеживают судьбу каждого атома.

Организация реакций по классам и числам
Помимо простого знания того, сбалансирована ли реакция, химиков интересует, к какому типу преобразования она относится и как хорошо проходит. Поэтому SynRXN создает несколько уровней задач по классификации реакций — от широких категорий до тонких различий в механизмах — и включает как органические реакции из патентов, так и ферментативные реакции из биологии. Эти метки сопровождаются стандартизированными способами разбиения данных на обучающую, валидационную и тестовую выборки, а также согласованными метриками качества. Для численных целей SynRXN собирает наборы данных по выходам реакций, энергетическим барьерам, скоростям и другим свойствам из литературы и публичных репозиториев. Все данные проходят единый процесс очистки, и предоставляются простые эталонные модели, чтобы пользователи могли быстро понять, действительно ли новый метод превосходит разумную базовую линию.
Справедливые и воспроизводимые предсказания реакций
Для задачи предсказания синтеза SynRXN сосредоточен на одношаговых реакциях, где заданный набор реагентов приводит к одному или нескольким продуктам, либо где целью является обратный поиск правдоподобных исходных веществ по продукту. Он объединяет три влиятельных корпуса, полученных из патентов, которые уже широко используются многими группами, но экспортирует их с детерминированными, прозрачными разбиениями и общими скриптами оценки. Под капотом все наборы данных SynRXN следуют одной и той же табличной структуре со стабильными идентификаторами реакций, стандартизированными кодировками молекул и явными лицензионными метками. Машиночитаемый манифест фиксирует местоположение файлов, контрольные суммы, имена столбцов и количества, позволяя любому восстановить те же курируемые таблицы на другой машине или позже с помощью автоматизированных рецептов сборки.
Что это значит для будущих открытий в химии
На практике SynRXN не вводит новую предиктивную модель; вместо этого он предоставляет каркас, необходимый для справедливого сравнения существующих и будущих моделей. Согласовывая данные о реакциях из многих источников, применяя строгие проверки качества и публикуя открытые версионированные эталоны с референсными результатами, SynRXN позволяет исследователям точно определить, какие части конвейера планирования синтеза работают хорошо, а где происходят сбои. Для химиков и специалистов по данным это означает, что заявления об улучшении производительности могут опираться на общие тесты, а не на индивидуальные, непрозрачные наборы данных, что ускоряет надежный прогресс в создании компьютерных инструментов, действительно помогающих реальному химическому дизайну.
Цитирование: Phan, TL., Nguyen Song, NN. & Stadler, P.F. SynRXN: An Open Benchmark and Curated Dataset for Computational Reaction Modeling. Sci Data 13, 625 (2026). https://doi.org/10.1038/s41597-026-07260-w
Ключевые слова: планирование синтеза с помощью компьютера, эталонирование реакций, наборы данных по химическим реакциям, машинное обучение для химии, предсказание реакций