Clear Sky Science · zh

基于“真实世界+”退化融合的中国传统戏曲视频超分辨率数据集

· 返回目录

让老戏影片重获新生

许多中国传统戏曲的影像仅以脆弱、低质量的视频形式保存。时间、灰尘和多次复制使面部模糊、服饰失色,并在画面中产生大量噪点。本文提出了一种新的数字“清理”和锐化此类视频的方法——不是逐帧手工修复,而是为人工智能构建专门的训练集。目标是让计算机学会将模糊、陈旧的影像还原为更清晰、更生动的画面,从而保护这一重要的世界文化记忆。

Figure 1
Figure 1.

为什么老戏视频看起来如此糟糕

中国传统戏曲,包括京剧、昆曲等著名剧种,被联合国教科文组织认定为人类共同的文化遗产。然而,许多流传下来的演出视频经历了漫长而严酷的历程。首先,原始拍摄设备就带来了模糊和相机噪声;随后,胶片、磁带或光盘的保存会引入划痕、变形和数据损失;最后,反复复制、为网络压缩以及不稳定的传输又产生了块状伪影、闪烁和掉帧。结果并非简单的模糊,而是多种损伤混杂在一起,使得修复方法难以推断原始场景的真实面貌。

构建模糊与清晰帧的配对

现代视频“超分辨率”方法教计算机从低质量帧预测出清晰细节的帧。要学习这项技能,需要大量模糊帧与同一场景的高质量帧精确匹配的示例。现有的训练集通常要么依赖简化的人工退化,要么采用在低清与高清之间并不精确对齐的真实素材。作者提出了名为 CTOVSR 的新资源:以四部已由专业人员自原始胶片修复并达到很高分辨率的传统戏曲影片为起点,寻找对应的、在网上发布的标准清晰度版本。那些低质量副本经历了完整的真实世界老化过程,是理想的“修复前”影像。

对每一帧进行精细对齐

将修复版与老化版视频配对并非易事。帧率差异、丢帧、插入镜头、水印、黑边以及比例变化等问题使得简单的自动方法无能为力。团队先提取可用片段,然后进行细致的三步对齐。首先,使用自制工具 eye_comparer 手动修正时间问题,例如丢帧、帧序错乱以及场景切换处的“幽灵”帧。接着,通过图像编辑软件处理空间不匹配,精确叠加帧并裁剪边框、标识与字幕,同时尽量保留画面内容。最后,使用相似性度量进行自动检查,仅保留结构上几乎一致的帧对。该流程产出 250 对高质量的真实世界序列,涵盖数十万帧。

Figure 2
Figure 2.

将真实损伤与模拟磨损相结合

尽管这些精心对齐的帧对捕捉到了真实的老化痕迹,但数量仍不足以覆盖视频失真形式的全部多样性。为扩大训练样本,作者加入第二个成分:对另外 41 部高清戏曲视频施加合成退化。他们通过两阶段的退化链模拟空间损伤——如模糊与噪声,并通过使用一种广泛应用的老旧编码标准模拟压缩造成的时间性损伤,以反映许多网络视频的历史编码方式。将这些合成部分与“真实世界+”帧对融合后,构建出 CTOVSR 数据集,包含 900 对严格对齐的低/高质量视频对,每对持续 100 帧,展示了多样的剧种、场景与光照条件。

验证新数据集的价值

为检验 CTOVSR 是否真正有助于视频修复,作者仅用该数据集训练了若干先进的超分辨率模型,并将结果与简单的放大方法进行比较。训练后的模型生成了更清晰的图像,服饰细节更锐利、脸谱更易辨认、可见伪影更少。消融研究表明,将真实与合成退化结合明显优于单独使用任一类数据。研究者还将训练好的模型用于全新素材:在线找到的老化戏曲片段,甚至其他文化的表演视频,如意大利歌剧和印度古典舞。人工观众对增强后帧的评分显著高于原始或基础放大版本,表明在 CTOVSR 上训练的模型能够超越其包含的特定素材实现一定程度的泛化。

通过更聪明的数据拯救遗产

简而言之,这项工作并不在于提出另一种修复算法,而在于提供这些算法需要的精心准备的“训练材料”。通过细致配对损坏与高质量的传统戏曲影像并用真实的模拟磨损丰富它们,CTOVSR 数据集让人工智能更好地理解老视频如何退化以及修复后应呈现的样貌。这一方法不仅为为中国传统戏曲注入新的视觉生命提供了切实路径,也为保护其他珍贵历史影像免于在数字世界中消逝提供了可行方案。

引用: Xi, W., Qin, B., Zhang, Y. et al. A Chinese Traditional Opera Video Super-Resolution Dataset Based on the “Real-world+” Degradation Fusion. Sci Data 13, 387 (2026). https://doi.org/10.1038/s41597-026-06776-5

关键词: 视频超分辨率, 数字遗产保护, 中国传统戏曲, 图像修复, 退化视频数据集