Clear Sky Science · ru
HMI-LUSC: гиперспектральный гистологический набор данных для плоскоклеточного рака лёгкого
Видеть рак новыми цветами
Рак лёгкого остаётся одним из самых смертельных заболеваний в мире, отчасти потому, что обнаружить каждую последнюю раковую клетку на препарате под микроскопом трудно и занимает много времени. Патологи обычно работают с розово‑фиолетово окрашенной тканью, наблюдаемой в микроскоп — методом, который хорошо передаёт структуру, но упускает тонкие химические подсказки. В этой статье представлен HMI‑LUSC — первая открытая коллекция микроскопических изображений плоскоклеточного рака лёгкого, снятых не в трёх цветах, а в десятках узких цветовых полос, дающих компьютерам и клиницистам куда более богатое представление о том, чем опухолевые клетки отличаются от соседних здоровых.

От простых цветных снимков к спектральным отпечаткам
Обычная цифровая патология работает примерно как камера телефона: она записывает красный, зелёный и синий каналы, чтобы приблизить видимое глазу. Гиперспектральная визуализация идёт дальше, разделяя свет на множество близко расположенных длин волн и формируя трёхмерный «куб данных», в котором каждая небольшая точка ткани имеет свой подробный цветовой спектр. В сочетании с микроскопом это даёт гиперспектральную микроскопию, способную запечатлеть как тонкую структуру, так и богатую спектральную информацию на уровне отдельных клеток. Такие данные могут выявлять различия в поглощении и отражении света тканями, невидимые на стандартных изображениях, создавая уникальные спектральные «подписи» для раковых и нераковых областей.
Создание новой библиотеки для изучения рака лёгкого
Авторы создали HMI‑LUSC, чтобы заполнить очевидный пробел: до этой работы не существовало публичного гиперспектрального набора для препаратов рака лёгкого, что затрудняло тестирование и сравнение методов компьютерной диагностики. Они собрали ткани от десяти пациентов, перенёсших операцию по удалению опухоли лёгкого, подготовили стандартные препараты с гематоксилином и эозином и отсканировали их с высоким разрешением. Опытные патологи отметили области опухоли и нормальной ткани, а представительские участки были повторно сфотографированы на специально разработанном гиперспектральном микроскопе. Каждое полученное изображение охватывает небольшой участок ткани, но включает 61 длину волны в диапазоне 450–750 нанометров при разрешении 3088 на 2064 пикселя. Для каждого участка набор данных содержит исходный спектральный куб, обычный RGB‑рендер и маски, очерчивающие расположение опухолевой ткани.
Преобразование грубых контуров в карты на уровне клеток
Хотя пометки на уровне слайда полезны, обучение современных алгоритмов часто требует информации на уровне отдельных клеток. Ручное обводение каждой клетки непрактично, поэтому команда разработала полуавтоматический рабочий процесс. Сначала они сгруппировали пиксели в кластеры по спектральному сходству, используя стандартный метод компьютерного зрения. Затем патологи проверили эти кластеры, наложенные на изображение ткани, и отнесли их к четырём категориям: опухолевые клетки, не‑опухолевые клетки, не‑клеточные ткани (например, строма или кровь) и пустой фон. Второй патолог проверил и скорректировал эти результаты, а разногласия решались консенсусом. В результате получен набор детализированных пиксельных масок, отражающих тонкие смеси типов клеток и сложные пограничные зоны, что даёт значительно более богатый материал для обучения систем машинного обучения.

Обеспечение чёткости и надёжности данных
Чтобы сделать набор данных надёжным, авторы всесторонне протестировали свою систему съёмки. Они подтвердили, что микроскоп разрешает тонкие структуры порядка одного микрона — достаточно, чтобы выделять отдельные клетки — и что уровень шума в изображениях низок на большинстве длин волн. Также они сравнили измеренный спектр стандартного источника света с эталонными кривыми и с коммерческой гиперспектральной камерой, обнаружив отличное совпадение. Наконец, они показали, как можно использовать данные, запустив базовые компьютерные модели — от классических методов машинного обучения до простых глубинных сетей — для сегментации областей опухоли. Даже без серьёзной оптимизации эти модели показали хорошую точность, что свидетельствует о пригодности набора данных в качестве эталона для будущих методов.
Что это значит для будущего помощи при раке лёгкого
HMI‑LUSC не заменяет большие коллекции стандартных препаратов и пока не является самостоятельным клиническим инструментом. Вместо этого он даёт исследователям тщательно отобранное окно в то, как опухолевые клетки лёгкого отличаются от соседних тканей по множеству длин волн света. Делая эти данные, метки и код открыто доступными, авторы предоставляют общую тестовую площадку для разработки и сравнения алгоритмов, использующих спектральную информацию — от простых классификаторов до сложных нейросетей. В долгосрочной перспективе такие исследования могут помочь компьютерам помогать патологам точнее и быстрее обнаруживать опухоли, а также выявлять спектральные паттерны, связанные с типом опухоли или ответом на лечение, которые обычные изображения не показывают.
Цитирование: Yan, Z., Huang, H., Guo, Y. et al. HMI-LUSC: A Histological Hyperspectral Imaging Dataset for Lung Squamous Cell Carcinoma. Sci Data 13, 415 (2026). https://doi.org/10.1038/s41597-026-06766-7
Ключевые слова: гиперспектральная визуализация, рак лёгкого, цифровая патология, сегментация опухоли, набор медицинских изображений