Clear Sky Science · zh

基于深度迁移学习的图像着色:使用 VGG19 与 CLAHE

· 返回目录

让老照片重获生机

我们许多人都有一箱黑白家庭照片,或喜欢经典电影和复古纪录片。想象这些场景在现实中是什么样子——蔚蓝的天空、绿色的田野、温暖的肤色——会让过去显得更近、更真实。本文探讨了一种新的计算方法,它能自动为灰度图像添加逼真的颜色与悦目的对比度,从而更容易修复旧照片、为黑白电影上色,甚至改进医学影像,而无需专家手工为每一处涂色。

从手工着色到智能机器

给图像上色看起来很简单,实则困难:同一个灰阶可能对应多种颜色——中灰色既可能是红砖、绿叶,也可能是蓝色衬衫。早期工具强烈依赖人工引导。艺术家可以在图像局部快速画上颜色“涂鸦”,软件再把这些线索扩散到相似区域;也有方法从内容相似的参考照片中借色。尽管这些方法有时令人信服,但当提示稀少、参考图不匹配或场景复杂时,效果就会崩溃。随着深度学习的发展,新系统能从大量示例照片中直接“猜测”颜色,减少了手工工作但需要巨大的训练时间和计算资源。

教会网络世界长什么样

作者在此基础上采用一种称为迁移学习的策略。不必从零训练新模型,而是复用一个已经在数百万彩色图像上训练好的强大视觉网络 VGG19。该网络的多层结构会逐步从边缘和纹理等简单模式转向完整物体与场景:脸部、树木、建筑、天空。着色系统将图像的灰度版本输入 VGG19,并同时从多个层收集特征,为每个像素形成丰富的信息“堆栈”。这帮助模型既理解细节——如发丝或叶缘——也把握更广的上下文,例如场景是海滩、城市街道还是森林。有了这些语境,网络能更好地选择可信的颜色,而非仅仅是数学上可能的颜色。

Figure 1
Figure 1.

把明暗变成颜色与对比

为使颜色决策更稳定,方法在一种将亮度与色度分离的色彩空间中表示图像。灰度输入作为亮度通道,而网络的任务是预测剩余的两个通道,这两个通道编码红绿之间和蓝黄之间的细微偏移。通过保持亮度不变,系统保留了原始图像的明暗和结构。在网络给出对缺失色彩信息的最佳预测后,最后还会应用一步增强。作者使用了一种称为自适应直方图均衡(CLAHE)的技术,它在局部拉伸明暗范围,使纹理更清晰、边缘更锐利、颜色更鲜明,同时不会简单地“过曝”高亮区域或在阴影中丢失细节。

Figure 2
Figure 2.

将方法付诸检验

为了评估方法的实际效果,研究者在若干包含物体、场景、人物和日常环境的知名图像集合上训练并测试了模型。他们将结果与多种对照方法比较,包括基于用户提示的系统、尝试生成真实图像的生成模型以及较新的基于变换器的模型。使用标准的图像质量衡量指标,他们的方法在多个方面持续产生更清晰、更忠实的颜色和更明晰的结构,在一组具有挑战性的场景照片上表现尤为突出。视觉对比显示,其着色输出常常更接近原始彩照,饱和度更丰富但受控、对比更均衡。他们也指出了方法的局限:非常暗或过亮的图像,或具有异常纹理与罕见颜色的场景,仍可能导致奇怪的色调或不均匀的光照。

对日常图像意味着什么

简而言之,这项研究表明:先让着色系统获得关于视觉世界的强烈先验知识——然后对结果进行谨慎增强——能够产生更符合人眼感知的图像。通过依托一个大型预训练网络并加入智能的对比度增强步骤,作者提供了一个实用工具,能为历史照片注入生机、丰富黑白电影,并使某些类型的医学图像更易于解读。尽管并非完美,在极端光照或非常特殊的场景上仍可能出错,但这一方法使自动着色更接近于非专家可依赖的水平,为各种日常用途带来了更现实的色彩可能性。

引用: Ghosh, N., Mandal, G. Deep transfer learning based image colorization using VGG19 and CLAHE. Sci Rep 16, 9528 (2026). https://doi.org/10.1038/s41598-026-40292-1

关键词: 图像着色, 深度学习, 迁移学习, 照片修复, 对比度增强