Clear Sky Science · zh

PADP：用于高效增量学习的渐进式自适应数据裁剪

2026-03-13 · 返回目录

为什么用更少数据更智能地学习很重要

现代人工智能系统对数据与计算资源的需求很高，这使得它们训练成本昂贵，且难以在手机、摄像头或家用机器人等日常设备上运行。与此同时，这些系统越来越需要随着时间持续学习，以应对出现的新类型图像或新场景。本文提出了一种称为 PADP 的方法，通过在训练过程中决定哪些样本值得关注、哪些可以安全跳过，来帮助神经网络更高效地学习，同时避免丢失重要的历史知识。

分步教会机器

大多数图像识别系统是在固定的数据集上训练一次然后部署。然而在现实世界中，新类别会不断出现：安防摄像头可能需要识别新物体，医疗系统可能要处理新的疾病。这种逐步学习过程被称为增量学习，其带来了一个主要挑战：当模型专注于新类时，往往会遗忘旧类，这就是所谓的灾难性遗忘。同时，在每一步都对所有可用数据进行训练既浪费又常常在内存和能耗受限的设备上不可行。作者认为，要使增量学习可行，我们需要既能降低训练开销又能谨慎保留最有用的新旧样本的方法。

挑选难样本与不稳定样本

PADP 通过在不同时间点为每个训练样本评分来解决这个问题，从而衡量该样本对模型的实际用处。第一个分数称为瞬时难度分，衡量模型当前预测与正确答案之间的差异。如果模型对某张图片始终自信且正确，则该图片被视为简单且不那么关键；如果模型表现不佳，则该图片被视为困难且值得保留。第二个分数是难度变化分，用来观察这些难度值在训练过程中的变化。如果某个样本的难度值上下波动，说明学习不稳定或发生遗忘，方法会将此类样本视为特别有信息量。通过将样本当前的难度与其难度演变结合，PADP 构建了一个更丰富的模型需求画像。

逐步裁剪数据，而非一次性全部丢弃

PADP 不会在一次决策中丢弃大量数据，而是在学习进行过程中渐进地裁剪训练集。在初始预热阶段之后，该方法反复评估当前使用的所有样本，按综合难度分排序，并移除一部分看起来最不有用的样本。裁剪比例随时间逐步增加，因此早期决策更保守，等模型理解稳定后再更激进。一个简单但重要的保护机制确保每个类至少保留最小数量的样本，以免稀有类别被无意抹除。这种渐进且考虑类别的精简方式在不牺牲样本多样性的情况下保持训练数据精简。

更少训练获得更强结果

研究人员在两个标准图像集合 CIFAR-100 和 Tiny-ImageNet 上，在若干增量学习设置下测试了 PADP，并将其与多种现有的数据选择或裁剪技术进行了比较。在直接对比中，一个具有固定裁剪目标的 PADP 变体在相同裁剪水平下达到了比所有基线更高的准确率，在某些情况下甚至超过了对完整数据集训练的准确率。默认的自适应版本不需要预设的裁剪比例，相比于使用完整数据训练，在精度上最高提升约 6 个百分点，同时将训练时间最多减少约 53%。该方法还能嵌入到几种不同的增量学习框架中，并持续减少对旧类别的遗忘，同时提升或至少保持整体准确率，表明其益处并不局限于某一特定模型设计。

这对日常 AI 有何意义

简单来说，PADP 教会神经网络更聪明地练习，而不是更费力地练习。通过持续判断哪些图像是简单的、哪些是棘手的、哪些是模型反复学习或遗忘的，它可以在不损害性能的情况下剪掉冗余训练样本——并且常常还能改善性能。同时，它在裁剪过程中保护了不常见的类别不被抹除。这种效率与稳定性的结合对必须在资源受限设备上随时间自我更新的 AI 系统尤其重要。尽管当前工作集中在图像分类上，但基于难度感知的渐进式数据裁剪这一思想可能帮助未来许多领域的系统在不忘已知技能的情况下即时学习新能力。

引用: Duan, B., Liu, D., He, Z. et al. PADP: progressive and adaptive data pruning for efficient incremental learning. Sci Rep 16, 13440 (2026). https://doi.org/10.1038/s41598-026-43959-x

关键词: 增量学习, 数据裁剪, 深度学习效率, 灾难性遗忘, 样本选择