Clear Sky Science · ru

Алгоритм предсказания изображения для туманных дорожных сцен на основе улучшенного трансформера

· Назад к списку

Почему важно «видеть» сквозь туман

Ехать по густому туману можно, словно смотришь в белую стену. Для людей-водителей и самоходных автомобилей плохая видимость превращает обычные дороги в опасные места. В этом исследовании предлагается новый способ, позволяющий компьютерам «видеть» яснее через туман, преобразуя размытые уличные сцены в более чёткие и информативные изображения. Цель — не просто красивые кадры, а более безопасные решения для автономных систем, которым необходимо обнаруживать разметку, автомобили и препятствия при любых погодных условиях.

От размытых дорог к более ясным видам

Туман ухудшает изображения, рассеивая свет, вымывая цвета, сглаживая контуры и пряча удалённые объекты. Традиционные подходы пытаются обратить это, опираясь на вручную разработанные правила о поведении тумана или на широкое усиление контраста «для всех случаев». Новые методы глубокого обучения улучшают ситуацию, но многие из них испытывают сложности с учётом дальнодействующих закономерностей в кадре — например, с тем, как удалённая разметка или транспорт связаны с объектами рядом с камерой. Кроме того, такие модели часто тяжёлые и медленные, что проблематично для автомобилей, которые должны реагировать в реальном времени.

Более продвинутое зрение для туманных дорог

Чтобы преодолеть эти ограничения, авторы разработали специализированную систему зрения на базе современной архитектуры ИИ, известной как трансформер — изначально созданной для обработки языка, но теперь адаптированной для изображений. Их сеть принимает одно туманное дорожное изображение и предсказывает более ясную версию вместе с оценкой дальности видимости. Она разбивает изображение на перекрывающиеся блоки нескольких размеров, что позволяет одновременно концентрироваться на мелких деталях, таких как края разметки и дорожные знаки, и на общей структуре дороги. Эти блоки затем обрабатываются в нескольких параллельных ветвях, настроенных на разные плотности тумана, так что лёгкий моросящий туман и густая мгла обрабатываются по-разному, а не через один общий конвейер.

Figure 1
Figure 1.

Следование структуре вместо шума

Ключевое новшество внутри системы — упрощённый механизм внимания, который позволяет сети оценивать взаимосвязи между удалёнными частями изображения без взрывного роста вычислений. Авторы аппроксимируют дорогостоящий внутренний расчёт так, чтобы он вел себя аналогично, но работал быстрее, превращая медленный квадратичный шаг в гораздо более эффективный. Это помогает модели сосредоточиться на важных структурах — например, на выравнивании разметки и контурах автомобилей — игнорируя при этом большую часть случайного туманного шума. Дополнительные модули внимания уточняют, какие каналы признаков наиболее важны и какие пространственные области требуют фокуса, что дополнительно подчёркивает релевантные края и формы, критичные для навигации.

Тестирование на реальном и синтетическом тумане

Исследователи собрали три датасета дорожных сцен, которые смешивают сгенерированный компьютером туман с реальными туманными снимками городов и автомагистралей, охватывая лёгкий, средний и густой туман. Они обучили систему выдавать и «очищенное» изображение, и оценку видимости, а затем сравнили её с сильным физически ориентированным методом и несколькими ведущими моделями деhazing. Их подход во многих случаях восстанавливает больше дорожных деталей — особенно удалённую разметку и контуры автомобилей — при использовании значительно меньшего числа параметров, чем у некоторых популярных альтернатив. Важно, что он работает достаточно быстро для реального времени на графическом оборудовании, сопоставимом с тем, что может быть установлено в современном автомобиле, обеспечивая десятки кадров в секунду даже при более высоких разрешениях.

Figure 2
Figure 2.

Более чёткие изображения для безопасных решений

В повседневных терминах эта работа предлагает лёгкий «цифровой дефоггер», который помогает системам автоматического вождения лучше видеть дорогу в неблагоприятную погоду. Хотя метод не безупречен — при очень плотных или сложных сценах по-прежнему возможны сдвиги цветов и артефакты — он представляет практичный компромисс между качеством изображения и скоростью. Комбинируя многомасштабный обзор, специализированные ветви для разных уровней тумана и эффективный механизм внимания, метод даёт более чёткие и информативные дорожные изображения, не перегружая бортовые вычислительные ресурсы. Это делает его многообещающим шагом на пути к более безопасному автономному вождению в тех самых мутных, с низкой видимостью условиях, которые ставят в затруднение и людей, и машины.

Цитирование: Zhang, BT., Zhao, AY. & Xiong, P. Image prediction algorithm for foggy road scenes based on improved transformer. Sci Rep 16, 9579 (2026). https://doi.org/10.1038/s41598-025-25974-6

Ключевые слова: видение на туманных дорогах, устранение тумана на изображениях, автономное вождение, изображения на основе трансформера, восприятие в неблагоприятных погодных условиях