Clear Sky Science · es
HMI-LUSC: un conjunto de datos de imágenes hiperespectrales histológicas para carcinoma escamoso de pulmón
Ver el cáncer con nuevos colores
El cáncer de pulmón sigue siendo una de las enfermedades más mortales del mundo, en parte porque detectar hasta la última célula cancerosa en un portaobjetos al microscopio es difícil y lleva mucho tiempo. Los patólogos suelen basarse en tejido teñido de rosa y púrpura observado al microscopio, un método que capta la estructura pero pasa por alto pistas químicas sutiles. Este artículo presenta HMI-LUSC, la primera colección de acceso abierto de imágenes microscópicas de carcinoma escamoso de pulmón capturadas no solo en tres colores, sino en docenas de bandas estrechas de color, ofreciendo a los ordenadores y a los clínicos una visión mucho más rica de lo que hace que las células tumorales sean diferentes de sus vecinas sanas.

De imágenes a color simples a huellas espectrales
La patología digital convencional funciona de forma parecida a la cámara de un teléfono: registra canales rojo, verde y azul para aproximar lo que el ojo ve. La imagen hiperespectral va varios pasos más allá al dividir la luz en muchas longitudes de onda cercanas entre sí, produciendo un «cubo de datos» tridimensional en el que cada diminuto punto de tejido tiene su propio espectro de color detallado. Cuando esta idea se combina con un microscopio, se obtiene imagen microscópica hiperespectral, capaz de capturar tanto la estructura fina como la rica información espectral a nivel de células individuales. Estos datos pueden revelar diferencias en cómo los tejidos absorben y reflejan la luz que son invisibles en imágenes estándar, creando «firmas» espectrales únicas para las regiones cancerosas y no cancerosas.
Construyendo una nueva biblioteca para el estudio del cáncer de pulmón
Los autores crearon HMI-LUSC para cubrir una laguna clara: antes de este trabajo no existía un conjunto de datos hiperespectrales público para laminillas de cáncer de pulmón, lo que dificultaba probar y comparar métodos diagnósticos basados en ordenador. Recolectaron tejido de diez pacientes sometidos a cirugía de tumores pulmonares, prepararon laminillas estándar teñidas con hematoxilina y eosina y las escanearon a alta resolución. Patólogos experimentados marcaron áreas tumorales y normales, y las regiones representativas se volvieron a imagenar con un microscopio hiperespectral construido a medida. Cada imagen resultante cubre un pequeño parche de tejido pero abarca 61 longitudes de onda entre 450 y 750 nanómetros, con una resolución de 3088 por 2064 píxeles. Para cada región, el conjunto de datos incluye el cubo espectral bruto, una representación RGB convencional y máscaras que delinean dónde está presente el tejido tumoral.
Convertir contornos aproximados en mapas a nivel celular
Si bien las marcas a nivel de laminilla son útiles, entrenar algoritmos modernos a menudo requiere información a nivel de células individuales. Trazar manualmente cada célula es impráctico, por lo que el equipo diseñó un flujo de trabajo semiautomático. Primero agruparon píxeles en clústeres según su similitud espectral utilizando un método estándar de visión por ordenador. Luego los patólogos inspeccionaron estos clústeres superpuestos en la imagen del tejido y los asignaron a cuatro categorías: células tumorales, células no tumorales, tejido no celular como estroma o sangre, y fondo vacío. Un segundo patólogo revisó y ajustó estos resultados, resolviendo desacuerdos por consenso. El resultado es un conjunto de máscaras detalladas a nivel de píxel que capturan mezclas sutiles de tipos celulares y zonas fronterizas confusas, proporcionando material de enseñanza mucho más rico para sistemas de aprendizaje automático.

Garantizar datos nítidos y fiables
Para hacer que el conjunto de datos sea confiable, los autores probaron a fondo su sistema de adquisición. Verificaron que el microscopio puede resolver patrones finos hasta aproximadamente un micrómetro—suficientemente pequeño para distinguir células individuales—y que el ruido de la imagen es bajo en la mayoría de longitudes de onda. También compararon el espectro medido de una fuente de luz estándar con curvas de referencia y con una cámara hiperespectral comercial, encontrando una excelente concordancia. Finalmente, demostraron cómo se pueden utilizar los datos ejecutando modelos informáticos de referencia, desde métodos clásicos de aprendizaje automático hasta redes profundas sencillas, para segmentar regiones tumorales. Incluso sin una optimización intensiva, estos modelos alcanzaron una precisión sólida, mostrando que el conjunto de datos es adecuado como referencia para métodos futuros.
Qué significa esto para la atención futura del cáncer de pulmón
HMI-LUSC no reemplaza grandes colecciones de laminillas estándar, ni es todavía una herramienta clínica por sí sola. En cambio, ofrece a los investigadores una ventana cuidadosamente curada sobre cómo las células tumorales pulmonares difieren del tejido cercano a lo largo de muchas longitudes de onda de la luz. Al poner públicamente disponibles estos datos, etiquetas y código, los autores proporcionan un banco de pruebas común para desarrollar y comparar algoritmos que utilicen información espectral, desde clasificadores simples hasta redes neuronales avanzadas. A largo plazo, este trabajo podría ayudar a que los ordenadores asistan a los patólogos a detectar tumores con mayor precisión y rapidez, y podría revelar patrones espectrales vinculados al tipo de tumor o la respuesta al tratamiento que las imágenes ordinarias no pueden mostrar.
Cita: Yan, Z., Huang, H., Guo, Y. et al. HMI-LUSC: A Histological Hyperspectral Imaging Dataset for Lung Squamous Cell Carcinoma. Sci Data 13, 415 (2026). https://doi.org/10.1038/s41597-026-06766-7
Palabras clave: imágenes hiperespectrales, cáncer de pulmón, patología digital, segmentación tumoral, conjunto de datos de imagen médica