Clear Sky Science · ru

Пулинг внимания по классу и разреженность токенов в визуальных трансформерах для интерпретации рентгенограмм грудной клетки

· Назад к списку

Умнее рентгены для глобального заболевания лёгких

Туберкулёз по‑прежнему остаётся одним из самых смертоносных инфекционных заболеваний в мире, а рентген грудной клетки часто является первым и единственным доступным методом визуализации в переполненных клиниках, особенно в странах с низким и средним уровнем дохода. При этом чтение таких снимков сложно и требует много времени, даже для специалистов. В этом исследовании представлена система искусственного интеллекта, разработанная не только для высокоточной детекции признаков туберкулёза на рентгенограммах грудной клетки, но и для того, чтобы показывать врачам именно те области лёгких, которые повлияли на её решение, с целью повышения доверия и поддержки более быстрых и согласованных диагнозов.

Почему чтение рентгеновских изображений так трудно

Рентген грудной клетки дешёв, быстр и широко доступен, что делает его привлекательным инструментом для массового скрининга. Проблема в том, что туберкулёз может проявляться тонкими, легко пропускаемыми признаками, особенно когда изображения зашумлены, недо- или переэкспонированы или сделаны на старом оборудовании. Читатели‑люди могут приходить к разным заключениям, а загруженные клиники перегружают рентгенологов. Традиционные компьютерные методы пытались решить это, измеряя вручную сконструированные признаки на изображениях и подавая их в стандартные модели машинного обучения, но эти ранние системы испытывали трудности при работе со снимками из новых больниц или с другими техническими параметрами.

От нейросетей к визуализирующим трансформерам с вниманием

Глубокое обучение, особенно сверточные нейронные сети, улучшило ситуацию, обучаясь распознавать паттерны непосредственно по пикселям и показывая хорошие результаты на наборах данных по туберкулёзу. Однако такие сети в основном фокусируются на локальных окрестностях изображения и могут упускать более крупные закономерности, охватывающие оба лёгких. Новые модели, называемые визуальными трансформерами, рассматривают рентген как сетку небольших патчей и учатся тому, как каждая часть соотносится с остальными, улавливая дальнодействующую структуру. Несмотря на мощь, готовые трансформеры иногда обращают внимание на неважные области и могут быть трудны для интерпретации, что вызывает сомнения в том, насколько их решения согласуются с клиническим мышлением.

Figure 1
Figure 1.

Специальная ИИ‑конвейер для рентгенограмм лёгких

Авторы разработали настраиваемый визуальный трансформер, чтобы устранить эти слабые стороны при работе с рентгенами грудной клетки. Сначала каждое изображение тщательно предобрабатывается: его изменяют по размеру, нормализуют и часто пропускают через метод повышения контрастности, который подчёркивает слабые очаги в лёгких, избегая при этом чрезмерной резкости. Лёгкий сверточный этап в начале модели извлекает мелкие детали — такие как границы и текстуры — которые важны в медицинских изображениях. Затем скан разбивается на маленькие патчи, каждый из которых превращается в токен для обработки трансформером.

Обучение модели тому, куда смотреть

Чтобы помочь системе учитывать анатомию, модель использует механизм кодирования позиций, который вводит информацию о том, где расположен каждый патч в лёгких, вместо равного отношения ко всем локациям. Также вводятся специальные «класс‑токены», по одному на каждую категорию заболевания, которые учатся собирать наиболее релевантные доказательства из всех патчей. Стратегия разреженности побуждает сеть опираться только на подмножество наиболее информативных токенов, отбрасывая фоновые паттерны и шум. Режим обучения включает приёмы, такие как случайное исключение токенов, тщательное планирование скорости обучения и вычисления со смешанной точностью — всё это выбрано, чтобы стабилизировать обучение на ограниченных медицинских данных и избежать переобучения на особенностях тренировочных изображений.

Figure 2
Figure 2.

Видеть то, что видит ИИ

Ключевой момент — система спроектирована так, чтобы объяснять свои решения. После предсказания «туберкулёз» или «норма» модель генерирует тепловые карты с помощью метода, известного как Grad‑CAM. Эти цветные наложения подчёркивают, какие области лёгких сильнее всего повлияли на решение. Авторы организовали конвейер объяснений так, чтобы показывать сбалансированные примеры как из заболевших, так и из здоровых случаев, чтобы рентгенологи могли проверить, смотрит ли инструмент на клинически значимые структуры, а не на посторонние артефакты. На двух открытых наборах данных по туберкулёзу подход достиг валидационной точности примерно 98 процентов и площади под ROC‑кривой, близкой к идеальной дискриминации, хотя авторы предупреждают, что разбиение данных на уровне изображений может слегка переоценивать реальную эффективность в полевых условиях и что требуется внешнее тестирование.

Что это означает для будущей помощи

Проще говоря, работа демонстрирует ИИ‑систему, которая может быстро и точно отмечать вероятные случаи туберкулёза на рентгенах грудной клетки, одновременно создавая наглядную «карту» своих выводов. Такой инструмент может помочь в сортировке пациентов в условиях с ограниченными ресурсами, сократить число пропущенных случаев и выступать в роли последовательного второго мнения для рентгенологов. В то же время авторы подчёркивают, что их модель протестирована только на двух публичных наборах данных, сосредоточена на одной метке заболевания и не прошла полной клинической валидации. Дальнейшие шаги включают расширение метода на несколько заболеваний лёгких, адаптацию к 3D‑сканам, таким как КТ, проверку объяснений с рентгенологами и тестирование в разных больницах. Тем не менее исследование является многообещающим шагом в направлении ИИ, который не только точен, но и прозрачен и заслуживает доверия в борьбе с туберкулёзом.

Цитирование: Lokunde, V., Sundar, K., Khokhar, A. et al. Class-attention pooling and token sparsity based vision transformers for chest X-ray interpretation. Sci Rep 16, 8035 (2026). https://doi.org/10.1038/s41598-026-37109-6

Ключевые слова: туберкулез, рентген грудной клетки, визуальный трансформер, объяснимый ИИ, медицинская визуализация