Clear Sky Science · es
BiG-SCAPE 2.0 y BiG-SLiCE 2.0: agrupación de secuencias escalable, precisa e interactiva de racimos génicos metabólicos
Tesoros químicos ocultos en el ADN microbiano
Muchos de los medicamentos y agentes para la protección de cultivos de los que dependemos proceden de moléculas pequeñas producidas por microbios. Estos organismos ocultan las recetas para tales moléculas en tramos de ADN llamados racimos génicos. A medida que la secuenciación del ADN avanza a gran velocidad, los investigadores se ven desbordados por los datos y todavía conocen solo una pequeña fracción de lo que los microbios pueden producir. Este artículo presenta BiG-SCAPE 2.0 y BiG-SLiCE 2.0, dos herramientas de software mejoradas que ayudan a los científicos a cribar enormes archivos genómicos para mapear, comparar y organizar estas “fábricas moleculares” ocultas, acercando el descubrimiento de la próxima generación de antibióticos y compuestos agrícolas.

Por qué importan los racimos génicos para la salud y la agricultura
Los microbios usan pequeñas moléculas especializadas para competir, comunicarse y adaptarse a su entorno. Los planos genéticos para producir o degradar estas moléculas suelen agruparse en racimos génicos metabólicos. Estos incluyen racimos génicos biosintéticos que construyen productos naturales complejos, y racimos génicos catabólicos que permiten a los microbios alimentarse de compuestos concretos o exudados radiculares. Dado que los genes en un racimo actúan de forma concertada, encontrar una de estas regiones en un genoma es como detectar una “línea de fábrica” autosuficiente que puede sugerir la estructura y función de una molécula. Las herramientas de minería de genomas ya detectan estas fábricas en bacterias y hongos, pero el verdadero desafío es comparar cientos de miles de racimos para ver cómo se relacionan y qué diversidad química pueden albergar.
Dos motores para ordenar fábricas moleculares
BiG-SCAPE y BiG-SLiCE fueron creados originalmente para agrupar racimos génicos con características centrales similares en “familias de racimos génicos”. Se espera que cada familia produzca la misma molécula o moléculas estrechamente relacionadas. BiG-SCAPE construye redes detalladas de similitud entre racimos, mientras que BiG-SLiCE está optimizado para la velocidad, capaz de manejar millones de racimos transformándolos en huellas numéricas simples y luego agrupando esas huellas. Juntos sustentan un ecosistema en expansión de canales de minería genómica, bases de datos y visores interactivos que ayudan a los investigadores a navegar la química microbiana a escala planetaria.
Qué hay de nuevo en BiG-SCAPE 2.0
La versión 2.0 de BiG-SCAPE introduce una serie de mejoras dirigidas tanto a la biología como a la computación. Ahora comprende el concepto más refinado de “región” utilizado por la herramienta antiSMASH, ampliamente adoptada, que separa racimos superpuestos o híbridos en bloques de construcción más pequeños y con mayor sentido llamados protoclustes. Nuevos modos de alineamiento y estrategias permiten a BiG-SCAPE 2.0 centrarse en los genes centrales verdaderamente importantes dentro de cada racimo, afrontando mejor genes reordenados y límites de racimo imprecisos. A nivel del código, la base ha sido reescrita por completo para ganar velocidad y sostenibilidad, utilizando una base de datos SQLite compartida y una biblioteca moderna de Python para búsquedas por perfiles. Como resultado, BiG-SCAPE 2.0 puede ejecutarse hasta ocho veces más rápido que su predecesor, empleando aproximadamente la mitad de memoria, y ahora ofrece múltiples flujos de trabajo listos para usar para agrupar, consultar, desduplicar y evaluar racimos génicos mediante una interfaz web interactiva mejorada.

Cómo BiG-SLiCE 2.0 sigue el ritmo del diluvio de datos
BiG-SLiCE 2.0 se centra en hacer que los análisis ultragrandes sean más precisos sin perder su velocidad característica. Versiones anteriores trataban todos los tipos de racimos génicos de la misma manera, lo que favorecía involuntariamente a algunas familias sobre otras. Al cambiar a una medida de distancia similar al coseno y actualizar su biblioteca de firmas proteicas biosintéticas a los estándares más recientes, BiG-SLiCE 2.0 ahora agrupa tipos muy diferentes de racimos de forma más equilibrada. Optimizaciones de código y la migración a la misma biblioteca rápida de búsqueda por perfiles que usa BiG-SCAPE aportan aceleraciones adicionales, y las nuevas opciones para exportar todos los resultados como tablas de texto simples facilitan integrar BiG-SLiCE en otras canalizaciones de análisis. Pruebas contra nueve conjuntos de datos de familias génicas curadas manualmente muestran que la precisión de BiG-SLiCE 2.0 ahora se aproxima a la de BiG-SCAPE, especialmente para racimos génicos más cortos y más elusivos.
Revelando un vasto universo químico sin explotar
Los autores usaron ambas herramientas para examinar 260.630 regiones biosintéticas procedentes de una base de datos pública de genomas microbianos. BiG-SCAPE 2.0 y BiG-SLiCE 2.0 produjeron estimaciones notablemente similares sobre cuántas familias distintas de racimos génicos existen en este conjunto de datos, respaldando trabajos anteriores que indican que solo alrededor del 3 % del potencial biosintético codificado en genomas bacterianos ha sido caracterizado hasta ahora. En otras palabras, la gran mayoría de los compuestos producidos por microbios permanece desconocida. Al permitir agrupar y visualizar con precisión racimos génicos a lo largo de cientos de miles de genomas—y eventualmente millones—BiG-SCAPE 2.0 y BiG-SLiCE 2.0 ofrecen lentes potentes para explorar este universo químico inexplorado, allanando el camino para nuevos fármacos, herramientas de protección de cultivos más seguras y conocimientos más profundos sobre cómo los microbios moldean los ecosistemas y nuestra propia salud.
Cita: Draisma, A., Loureiro, C., Louwen, N.L.L. et al. BiG-SCAPE 2.0 and BiG-SLiCE 2.0: scalable, accurate and interactive sequence clustering of metabolic gene clusters. Nat Commun 17, 2000 (2026). https://doi.org/10.1038/s41467-026-68733-5
Palabras clave: racimos génicos biosintéticos, descubrimiento de productos naturales, búsqueda en genomas, metabolitos microbianos, agrupamiento computacional