Clear Sky Science · es
Un enfoque genómico para la identificación precisa de especies estrechamente relacionadas con muestras de secuenciación de nueva generación
Por qué esto importa para las granjas y más allá
La secuenciación moderna del ADN puede leer el código genético de los animales con un detalle asombroso, pero incluso las computadoras potentes pueden tener dificultades con una pregunta sorprendentemente básica: ¿estas secuencias provienen de una oveja o de una cabra? Para agricultores, criadores, conservacionistas y científicos, confundir especies en grandes conjuntos de datos de ADN puede descarrilar estudios sobre salud, productividad y evolución. Este artículo presenta una manera sencilla pero ingeniosa de distinguir especies estrechamente relacionadas —demostrada en ovejas y cabras— al fijarse no en cada pequeña diferencia del ADN, sino en un puñado de regiones que actúan como códigos de barras específicos de especie.

El problema del ADN que se parece
Ovejas y cabras comparten gran parte de su plano genético, por lo que fragmentos cortos de ADN de una especie a menudo encajan casi igual de bien en el genoma de referencia de la otra. Los autores analizaron datos de secuenciación del genoma completo de 40 animales con identidad conocida —20 ovejas y 20 cabras—, cada uno con cientos de millones de lecturas de ADN. Usando herramientas estándar que asignan lecturas a genomas de referencia, encontraron que el ADN de ambas especies se alineaba extremadamente bien tanto al genoma de referencia de la oveja como al de la cabra. Las tasas de alineamiento, la profundidad de cobertura y las medidas de error fueron muy similares y mostraron una gran superposición, lo que hacía casi imposible decir con confianza de qué especie procedía una muestra basándose solo en estas estadísticas rutinarias.
Por qué los clasificadores de ADN estándar se quedan cortos
El equipo también probó Kraken2, un programa popular que intenta asignar cada lectura de ADN a un lugar en el árbol de la vida. Incluso con una base de datos amplia, las lecturas de ovejas y cabras se clasificaron mayoritariamente en los mismos grupos animales generales, con solo pequeñas diferencias numéricas entre ellas. Las visualizaciones de estas asignaciones mostraron que la mayoría de las lecturas de ambas especies convergían en los mismos géneros, reflejando cuánto de su ADN comparten entre sí y con otros mamíferos. En la práctica, estos límites difusos significan que las herramientas taxonómicas tradicionales pueden inducir a error a los investigadores que suponen que un conjunto de datos etiquetado como “oveja” procede realmente de ovejas, o que una muestra mal etiquetada será fácil de detectar.
Convertir la falta de cobertura en un código de barras de especie
En lugar de preguntar qué tan bien las lecturas de ADN coinciden con un genoma de referencia, los autores dieron la vuelta a la pregunta: ¿dónde no coinciden? Alinearon el conjunto de entrenamiento de 30 animales (15 ovejas, 15 cabras) a ambos genomas de referencia y buscaron regiones con un patrón claro de encendido/apagado. Por ejemplo, una región se contaba como “específica de cabra” si las muestras de cabra mostraban sistemáticamente cobertura normal allí al alinearse con el genoma de cabra, mientras que las muestras de oveja presentaban casi ninguna cobertura en la misma posición. Usando umbrales estrictos, esta búsqueda produjo más de 150 000 regiones candidatas en cabras y más de 1,7 millones en ovejas. Tras una revisión manual centrada en tramos más largos y limpiamente separados, el equipo redujo esto a solo diez regiones de alta confianza por especie: zonas cortas de ADN donde una especie se “ilumina” de forma fiable y la otra permanece oscura.

Una prueba simple para muestras desconocidas
Con estas 20 regiones en mano, los autores diseñaron una rutina de prueba sencilla para cualquier conjunto de datos de ADN sin etiquetar. Primero, alinear las lecturas a ambos genomas de referencia, el de oveja y el de cabra. Luego, medir cuánta cobertura —la acumulación de lecturas— cae dentro de las diez regiones específicas de oveja en el genoma de oveja y de las diez regiones específicas de cabra en el genoma de cabra. Si las regiones de oveja muestran fuerte cobertura mientras las de cabra están casi vacías, la muestra es una oveja; si el patrón se invierte, es una cabra. Aplicada a 14 muestras independientes de validación, incluidos datos públicos de diferentes máquinas de secuenciación e incluso ADN modificado químicamente, esta prueba basada en patrones identificó correctamente cada muestra, logrando un 100 % de precisión en el conjunto estudiado.
Nuevas herramientas y usos futuros
Más allá de resolver un problema práctico para la investigación en ovejas y cabras, este trabajo ofrece un plano general que podría adaptarse a otros pares —o grupos— de especies estrechamente relacionadas. Las regiones seleccionadas sirven como bloques de construcción para herramientas futuras, desde pruebas rápidas de laboratorio que amplifiquen solo esos tramos específicos de especie, hasta software automatizado que revise conjuntos de datos de secuenciación antiguos en busca de errores de etiquetado. Aunque el método requiere alinear los datos a múltiples genomas de referencia, lo que demanda tiempo de cómputo y almacenamiento, evita muchas trampas de los enfoques tradicionales y es robusto frente a diferencias entre razas y plataformas de secuenciación. Dicho de forma cotidiana, los autores han mostrado cómo un número pequeño de puntos de referencia del ADN elegidos con cuidado puede dar una respuesta clara y fiable a una pregunta que los algoritmos grandes y complejos suelen contestar mal: ¿de qué animal se trata?
Cita: dain Marzouka, N.a., Al-Aamri, A., Alshamsi, F. et al. A genomic approach for accurate identification of closely related species with next-generation sequencing samples. Sci Rep 16, 11329 (2026). https://doi.org/10.1038/s41598-026-41497-0
Palabras clave: identificación de especies, secuenciación del genoma completo, ovejas y cabras, genómica comparativa, genética animal