Clear Sky Science · ru

Колоризация изображений на основе глубокого переноса обучения с использованием VGG19 и CLAHE

2026-02-18 · Назад к списку

Возвращая старые фотографии к жизни

У многих из нас есть коробки с черно‑белыми семейными фотографиями или любовь к классическим фильмам и винтажным документальным лентам. Представить, как эти сцены выглядели в реальной жизни — голубое небо, зеленые поля, теплые оттенки кожи — помогает прошлому казаться ближе и более осязаемым. В этой работе исследуется новый компьютерный метод, который автоматически добавляет реалистичные цвета и приятный контраст к градациям серого, упрощая восстановление старых снимков, оживление черно‑белых фильмов и даже улучшение медицинских сканов, без необходимости вручную раскрашивать каждую деталь.

От ручной колоризации к умным машинам

Колоризация изображений сложнее, чем кажется: один и тот же оттенок серого может соответствовать множеству возможных цветов — средний серый может быть красным кирпичом, зеленым листом или синим платьем. Ранние инструменты сильно зависели от человеческой подсказки. Художники могли наносить быстрые цветовые «штрихи» на участки изображения, а программы распространяли эти намеки по похожим областям. Другие системы заимствовали цвета из референсного фото с похожим содержанием. Такие методы могли выглядеть убедительно, но ломались, если подсказок было мало, эталонное изображение не идеально подходило или сцена была сложной. По мере развития глубокого обучения появились модели, которые учились «угадывать» цвета напрямую по большим коллекциям примеров, снижая потребность в ручной работе, но требуя огромного времени обучения и вычислительных ресурсов.

Обучая сеть понимать, как выглядит мир

Авторы используют этот прогресс в рамках стратегии, известной как перенос обучения. Вместо обучения новой системы с нуля они повторно используют мощную сеть компьютерного зрения VGG19, уже обученную на миллионах цветных изображений. У этой сети много слоев, которые постепенно переходят от простых паттернов — таких как края и текстуры — к целым объектам и сценам: лицам, деревьям, зданиям, небосводу. Система колоризации подает в VGG19 версию изображения в градациях серого и собирает признаки сразу из нескольких слоев, формируя богатый «стек» информации для каждого пикселя. Это помогает модели понимать как тонкие детали — пряди волос или края листьев, — так и более широкий контекст, например, пляж ли это, городская улица или лес. Благодаря такому контексту сеть лучше выбирает правдоподобные цвета, а не только математически допустимые.

Преобразование света и тени в цвет и контраст

Чтобы сделать цветовые решения более стабильными, метод представляет изображения в цветовом пространстве, которое разделяет яркость и цветовую информацию. Вход в градациях серого используется как канал яркости, в то время как задача сети — предсказать два оставшихся канала, кодирующих тонкие сдвиги между красным и зеленым и между синим и желтым. Сохраняя яркость фиксированной, система сохраняет исходную модель светотени и структуру изображения. После того как сеть делает свою лучшую оценку недостающей цветовой информации, применяется завершающий шаг улучшения. Авторы используют технику, называемую адаптивным выравниванием гистограммы (CLAHE), которая локально растягивает диапазон между темными и светлыми областями. Это делает текстуры более четкими, края — резче, а цвета — более насыщенными, не «выжигая» светлые участки и не теряя деталей в тенях.

Проверка метода на практике

Чтобы оценить эффективность подхода на практике, исследователи обучили и протестировали его на нескольких хорошо известных наборах изображений, включающих объекты, сцены, людей и повседневные окружения. Они сравнили свои результаты с различными соперничающими методами, включая системы с пользовательскими подсказками, генеративные модели, пытающиеся синтезировать правдоподобные изображения, и более новые модели на базе трансформеров. По стандартным мерам качества изображения их метод последовательно давал более четкие, более правдоподобные цвета и более отчетливую структуру, особенно хорошо показав себя на сложном наборе сцен. Визуальные сравнения демонстрируют, что их колоризованные результаты часто ближе к оригинальным цветным фотографиям: с более насыщенными, но контролируемыми оттенками и сбалансированным контрастом. Авторы также указывают на ограничения: очень темные или чрезмерно яркие изображения, а также сцены с необычными текстурами и редкими цветами всё еще могут приводить к странным оттенкам или неравномерному освещению.

Что это значит для повседневных изображений

Проще говоря, исследование показывает, что если дать системе колоризации сильный предобученный опыт о визуальном мире и затем аккуратно улучшить результат, можно получить изображения, которые выглядят более естественно для человеческого глаза. Используя базу крупной предобученной сети и добавив разумный шаг усиления контраста, авторы предлагают практичный инструмент, способный вдохнуть жизнь в исторические фотографии, обогатить черно‑белые фильмы и упростить интерпретацию некоторых типов медицинских изображений. Хотя метод не идеален и может ошибаться при экстремальном освещении или очень необычных сценах, он приближает автоматическую колоризацию к уровню, на который могут полагаться непрофессионалы, делая реалистичный цвет доступным для широкого круга повседневных применений.

Цитирование: Ghosh, N., Mandal, G. Deep transfer learning based image colorization using VGG19 and CLAHE. Sci Rep 16, 9528 (2026). https://doi.org/10.1038/s41598-026-40292-1

Ключевые слова: колоризация изображений, глубокое обучение, перенос обучения, восстановление фотографий, улучшение контраста