Clear Sky Science · es

SynRXN: Un banco de pruebas abierto y un conjunto de datos curado para el modelado computacional de reacciones

· Volver al índice

Por qué importan datos químicos más inteligentes

La química moderna depende cada vez más de los ordenadores para ayudar a diseñar nuevos medicamentos, materiales y productos químicos cotidianos. Pero incluso los algoritmos más avanzados solo son tan buenos como los datos de los que aprenden. Hoy en día, los datos de reacciones están dispersos en patentes, artículos y cuadernos de laboratorio en formatos desordenados e inconsistentes, lo que dificulta evaluar si las herramientas informáticas en competencia mejoran realmente. Este artículo presenta SynRXN, una colección abierta y cuidadosamente curada de conjuntos de datos y pruebas de reacciones diseñada para ofrecer a los investigadores un terreno común para evaluar qué tan bien funcionan sus métodos al planificar y comprender síntesis químicas.

Figure 1
Figure 1.

Descomponer un problema complejo en pasos claros

La planificación de síntesis asistida por ordenador busca ayudar a los químicos a averiguar cómo fabricar una molécula objetivo a partir de bloques de construcción más simples. En lugar de tratar esto como un desafío monolítico, SynRXN lo divide en cinco familias de tareas concretas que reflejan lo que hacen los químicos en la práctica. Primero viene la corrección y completado de registros de reacción (re-balanceo), luego el seguimiento de cómo se desplazan los átomos individuales desde los reactivos hasta los productos (mapeo átomo a átomo), después la asignación de cada reacción a una categoría (clasificación de reacciones), la predicción de propiedades numéricas útiles como rendimientos o barreras energéticas (predicción de propiedades de reacción), y finalmente el pronóstico de qué productos o reactivos son probables para una determinada transformación (predicción de síntesis). Al definir entradas, salidas y medidas de evaluación precisas para cada uno de estos pasos, SynRXN convierte un flujo de trabajo enmarañado en un conjunto de problemas bien planteados.

Limpiar registros químicos ruidosos

Los datos de reacciones del mundo real suelen estar incompletos: las patentes y los cuadernos electrónicos de laboratorio pueden omitir disolventes, contraiones o subproductos, o listar recuentos atómicos imposibles. SynRXN aborda esto en su tarea de re-balanceo de reacciones partiendo de conjuntos de datos derivados de patentes ampliamente utilizados y construyendo deliberadamente ejemplos con tipos específicos de errores, como átomos no carbonados faltantes o componentes ausentes en uno o ambos lados de la ecuación. A continuación, emplea un método híbrido basado en reglas y grafos para restaurar el equilibrio, conservando solo las correcciones con muy alta confianza y verificando manualmente el conjunto de pruebas final. Para el mapeo átomo a átomo, SynRXN recopila reacciones tanto orgánicas como bioquímicas de varias fuentes fiables y las somete a rigurosos controles automatizados para garantizar que las moléculas sean válidas y estén representadas de forma coherente antes de comparar qué tan bien distintas herramientas de mapeo rastrean el destino de cada átomo.

Figure 2
Figure 2.

Organizar las reacciones en clases y números

Más allá de saber simplemente si una reacción está balanceada, a los químicos les interesa qué tipo de transformación es y qué tan bien funciona. Por ello, SynRXN reúne varios niveles de tareas de clasificación de reacciones, que van desde categorías amplias hasta diferencias finas en el mecanismo, e incluye tanto reacciones orgánicas procedentes de patentes como reacciones catalizadas por enzimas de la biología. Empareja estas etiquetas con formas estandarizadas de dividir los datos en conjuntos de entrenamiento, validación y prueba, y con métricas de rendimiento acordadas. Para objetivos numéricos, SynRXN recopila conjuntos de datos de rendimientos de reacción, barreras energéticas, velocidades y otras propiedades de la literatura y repositorios públicos. Todos pasan por una canalización de limpieza coherente, y se proporcionan modelos de referencia sencillos para que los usuarios puedan determinar rápidamente si un método nuevo es realmente mejor que una línea base razonable.

Hacer que las predicciones de reacciones sean justas y reproducibles

Para la tarea de predicción de síntesis, SynRXN se centra en reacciones de un solo paso donde un conjunto dado de reactivos conduce a uno o varios productos, o donde el objetivo es trabajar hacia atrás desde un producto hasta reactivos plausibles. Agrupa tres corpus influyentes derivados de patentes que muchos grupos ya usan, pero los redistribuye con particiones deterministas y transparentes y con scripts de evaluación comunes. Bajo el capó, todos los conjuntos de datos SynRXN siguen la misma estructura tabular con identificadores de reacción estables, codificaciones de moléculas estandarizadas y etiquetas de licencia explícitas. Un manifiesto legible por máquinas registra ubicaciones de archivos, sumas de verificación, nombres de columnas y recuentos, permitiendo a cualquiera regenerar las mismas tablas curadas en otra máquina o en una fecha posterior usando recetas de compilación automatizadas.

Qué implica esto para el descubrimiento químico futuro

En términos prácticos, SynRXN no introduce un nuevo modelo predictivo; en cambio, proporciona la infraestructura necesaria para comparar modelos existentes y futuros de forma justa. Al armonizar datos de reacciones de muchas fuentes, aplicar controles de calidad estrictos y publicar bancos de pruebas abiertos y versionados con resultados de referencia, SynRXN permite a los investigadores identificar qué partes del flujo de planificación de síntesis funcionan bien y dónde fallan. Para químicos y científicos de datos por igual, esto significa que las afirmaciones de mejora de rendimiento pueden basarse en pruebas compartidas en lugar de conjuntos de datos a medida y opacos, acelerando el progreso fiable hacia herramientas informáticas que realmente asistan en el diseño químico en el mundo real.

Cita: Phan, TL., Nguyen Song, NN. & Stadler, P.F. SynRXN: An Open Benchmark and Curated Dataset for Computational Reaction Modeling. Sci Data 13, 625 (2026). https://doi.org/10.1038/s41597-026-07260-w

Palabras clave: planificación de síntesis asistida por ordenador, evaluación comparativa de reacciones, conjuntos de datos de reacciones químicas, aprendizaje automático para química, predicción de reacciones