Clear Sky Science · zh

一种使用边界移动处理不平衡数据集的方法

2026-03-04 · 返回目录

为什么日常数据中的稀有情况很重要

从银行欺诈和医学诊断到预测客户流失，许多我们让计算机做出的决策都依赖于识别那些罕见但关键的事件。在大多数真实数据集中，这些重要案例远远少于普通样本。一个主要只看到“日常情况”的模型可能会对我们最关心的情形视而不见。本文提出了一种重新平衡此类偏斜数据的新方法，以便学习算法能适当地关注那些稀有且影响重大的案例。

偏斜数据的隐蔽陷阱

当一种类型的样本远多于另一种类型时，标准机器学习方法往往会集中关注多数类，而悄然忽视少数类。例如，一个流失预测系统可能把几乎所有人都标注为忠诚客户，仍然在准确率上表现良好，原因只是实际流失者非常少。在事故检测、欺诈监测和医学筛查等情形中也会出现类似问题：阳性病例稀少但漏检代价高。传统的修正方法大致分为两类：调整学习算法以“更重视”少数类，或通过去除部分多数样本（下采样）或创建额外少数样本（过采样）来重塑数据。流行的过采样工具如 SMOTE 会生成合成少数样本，但它们可能在两类交界的敏感区域无意中引入杂乱样本。

群体间边界为何如此脆弱

作者指出，最危险的错误发生在决策边界附近——这是多数类和少数类在特征空间重叠的区域。许多现有技术要么在这个高风险区域直接添加合成点而不清理，要么激进地删除数据却意外丢失有信息量的样本。近来的研究尝试用几何约束、局部密度估计或噪声滤波来缓解，但大多数方法仍旧把少数样本视为固定点，鲜少重新考虑应如何处理靠近边界的多数样本。这留下了一个长期问题：重叠和噪声样本会混淆分类器，导致预测不稳定，尤其是在新数据上表现不佳。

整理边界的两步法

本文提出了边界移动过采样（Borderline Shifting Oversampling，BSO），这是一种明确针对问题边界区域的两阶段数据重塑方法。首先，它扫描每个多数样本的邻域，以判断该样本位于安全区、边界或明显错误的位置（噪声）。被少数邻居包围的多数点要么被重新归类到少数一侧，要么被标记为噪声并移除，从而有效地清理并移动边界，使其更好地反映底层模式。在第二阶段，该方法使用类似 SMOTE 的插值在精炼后的边界附近为少数样本生成新的合成点。但只在靠近边界的少数样本周围生成新样本，并避开明显的噪声点。通过在最具信息量的位置集中新增数据并避免嘈杂区域，BSO 构建了既在规模上更平衡、又在结构上更清洁的训练集。

将方法付诸检验

为评估该方法在实践中的表现，研究者在 30 个具有不同不平衡和重叠程度的基准数据集上测试了 BSO。他们将其与七种广泛使用的替代方法进行了比较，包括随机过采样与下采样、SMOTE、Borderline‑SMOTE、NearMiss，以及两种将过采样与噪声清理相结合的混合方法（SMOTE‑Tomek 和 SMOTE‑ENN）。三种常见分类器——支持向量机、朴素贝叶斯和随机森林——在每个重采样后的数据集上进行训练。研究没有依赖原始准确率，而是使用在不平衡情形下更为信息化的指标，如 F1 分数、G‑mean、召回率、精确率以及 ROC 曲线下面积（AUC）。在几乎所有数据集和分类器上，BSO 都提供了更高或相当的评分，同时表现出更小的波动，意味着其优点是稳健的，而非依赖于特定模型或设置。

对现实决策的意义

用通俗的话说，边界移动方法像是对混乱数据的细致编辑：它清理位于类别分界线附近的令人困惑的样本，然后在合适的位置恰到好处地添加逼真的少数样本。其结果是学习算法能更好地识别那些稀有但重要的事件，而不被嘈杂的重叠误导。对于欺诈检测、事故预测或医疗分诊等场景——遗漏少数样本代价高昂——该方法提供了一种实用方式，使模型更公平、更敏感、更可靠，同时仅增加适度的计算开销。

引用: Malhat, M.G., Elsobky, A.M., Keshk, A.E. et al. An approach for handling imbalanced datasets using borderline shifting. Sci Rep 16, 8264 (2026). https://doi.org/10.1038/s41598-026-39118-x

关键词: 类别不平衡, 过采样, 决策边界, 异常检测, 机器学习鲁棒性