Clear Sky Science · es
Aprendizaje profundo multimodal no supervisado para la taxonomía de la morfología de galaxias: integrando ConvNeXtEmbeddings y parámetros morfológicos para ciencia de encuestas escalable
Enseñar a los ordenadores a leer las formas de las galaxias
Las encuestas astronómicas modernas están fotografiando miles de millones de galaxias, muchas más de las que cualquier equipo de astrónomos —o de científicos ciudadanos— podría clasificar visualmente. Sin embargo, las formas de las galaxias, desde elípticas lisas hasta grandes espirales y fusiones caóticas, contienen pistas vitales sobre cómo el universo construye sus estructuras. Este artículo presenta una nueva forma de que los ordenadores ordenen galaxias automáticamente, sin que se les diga de antemano qué buscar, lo que abre la puerta a explorar la estructura cósmica a una escala verdaderamente masiva.

Por qué importan las formas de las galaxias
Las galaxias no son solo imágenes atractivas; su apariencia codifica su historia. Los sistemas lisos y redondeados tienden a ser más viejos y tranquilos, mientras que las galaxias con brazos espirales prominentes o formas distorsionadas suelen indicar formación estelar activa o colisiones recientes. Durante un siglo, los astrónomos han organizado estas formas en familias —como elípticas, espirales e irregulares— para conectar la estructura visible con la física subyacente. Pero a medida que proyectos como el Sloan Digital Sky Survey y observatorios próximos como el Legacy Survey of Space and Time del Rubin Observatory obtienen imágenes del cielo con una profundidad sin precedentes, el etiquetado manual tradicional se ha vuelto imposible de mantener.
De las etiquetas humanas al descubrimiento no supervisado
La mayoría de los avances recientes en clasificación automática de galaxias se apoyan en aprendizaje profundo supervisado: los ordenadores aprenden a partir de miles de ejemplos ya etiquetados por humanos. Esto funciona bien, pero depende de conjuntos de entrenamiento creados laboriosamente y se limita a las categorías que las personas definen de antemano. Los autores, en cambio, siguen una vía no supervisada, pidiendo al algoritmo que descubra agrupaciones naturales en los datos por sí solo. Para ello usan potentes redes de análisis de imágenes originalmente entrenadas con fotografías cotidianas, que luego adaptan a imágenes de galaxias para extraer huellas visuales ricas, todo sin necesitar que ninguna galaxia tenga una etiqueta preasignada.
Mezclando fotos con medidas físicas
Las imágenes de galaxias contienen un detalle inmenso, pero los astrónomos también usan descriptores numéricos sencillos de la estructura, como cuán concentrada está la luz, cuánto aparenta estar descompensada la galaxia, cuán grumosas son sus regiones de formación estelar y qué tan desigual está distribuida la luz en sus píxeles. El equipo combina ambos mundos: características visuales profundas obtenidas de dos redes neuronales modernas y cinco medidas estructurales clásicas. Dado que la descripción basada en imágenes se traduce en miles de números mientras que las medidas físicas son solo unas pocas, construyen un "autoencoder multimodal" especial —un tipo de red neuronal que comprime toda la información en un código interno compacto. Este código de 64 números fuerza al sistema a equilibrar lo que aprende de las imágenes con lo que se conoce a partir de la física básica de las galaxias.
Dejar que los datos formen familias naturales
Una vez que cada una de las 4.950 galaxias cuidadosamente limpias de la encuesta Sloan se reduce a este equilibrado código de 64 dimensiones, los autores aplican una técnica de agrupamiento probabilístico que trata a la población de galaxias como una mezcla suave de grupos superpuestos. En lugar de imponer límites bruscos, asigna a cada galaxia un grado de pertenencia a varios clústeres y marca solo el 2 por ciento más extremo como verdaderas rarezas o artefactos. Los clústeres principales resultantes se alinean bien con familias conocidas: sistemas lisos y compactos que recuerdan a galaxias de tipo temprano; discos difusos y grumosos semejantes a espirales de tipo tardío; sistemas interactuantes y perturbados; y discos intermedios y de transición. Pruebas internas muestran que esta representación combinada de imagen y física produce grupos más limpios y coherentes que usar solo imágenes o solo números estructurales.

Comprobación frente a reglas clásicas y escalado
Para ver si los agrupamientos no supervisados del ordenador tienen sentido físico, los autores los comparan con límites empíricos de uso tradicional basados en diagramas estructurales sencillos. Aunque el algoritmo nunca vio etiquetas humanas, aproximadamente la mitad de sus clasificaciones se alinean con estas categorías tradicionales, y el resto revela variaciones más sutiles que las reglas antiguas de dos parámetros tienden a empañar. Igual de importante, toda la canalización funciona con rapidez: cada galaxia puede procesarse en solo unas decenas de milisegundos en hardware moderno, un ritmo adecuado para encuestas a escala de petabytes que pronto catalogarán miles de millones de galaxias.
Un nuevo mapa del Galaxy Zoo
En términos cotidianos, este trabajo muestra cómo enseñar a un ordenador a "ver" y agrupar galaxias de una manera que respete tanto lo que los astrónomos ya saben como lo que los datos todavía pueden ocultar. Al combinar patrones visuales con medidas físicas simples y permitir transiciones graduales en lugar de cajas rígidas, el método construye una taxonomía de galaxias flexible y escalable. Este enfoque debería ayudar a los científicos a tamizar el próximo aluvión de imágenes del cielo, detectar sistemas raros o inusuales y refinar nuestra imagen de cómo las galaxias se forman, interactúan y transforman a lo largo del tiempo cósmico.
Cita: Selim, I.M., Farahat, A.S., Basmsm, L.H. et al. Unsupervised multimodal deep learning for galaxy morphology taxonomy: integrating ConvNeXtEmbeddings and morphological parameters for scalable survey science. Sci Rep 16, 12183 (2026). https://doi.org/10.1038/s41598-026-45369-5
Palabras clave: morfología de galaxias, aprendizaje no supervisado, aprendizaje profundo, encuestas astronómicas, agrupamiento