Clear Sky Science · zh
使用机器与深度学习的混合方法增强信用卡欺诈检测
这与你的钱包为什么相关
每次你刷卡或在线购物时,一场无声的竞赛就开始了:银行的计算系统能在你的钱被盗走前发现小偷吗?随着全球数字支付的激增,犯罪分子不断创造新花招,简单的基于规则的安全措施(例如“夜间阻止所有超过5000美元的交易”)已不再充足。本研究表明,将多种人工智能方法结合成一个“专家团队”可以在一个广泛使用的真实数据集中捕捉到几乎所有伪造的信用卡交易,同时还能说明系统为何做出每一项决策。

不断上升的数字欺诈潮
信用卡欺诈是一笔大生意。随着电子商务、网上银行和无现金支付的发展,全球损失已达数百亿美元并预计将继续上升。大多数交易完全合法,但极少数是欺诈——有时不到千分之二。这种不平衡使得问题变得困难:系统可能仅凭将几乎所有交易标记为“正常”就显得非常准确,却仍然漏掉大部分欺诈。作者关注这一不平衡以及欺诈手法不断变化的事实,这两者共同要求灵活、由数据驱动的工具,而不是僵化的人工规则。
将稀有欺诈转化为可学习的信号
研究人员以一组真实的欧洲信用卡交易为起点,这些交易在两天内收集:约285,000笔支付,其中只有492笔为欺诈。为了确保模型不会被大量正常样本淹没,他们使用一种技术来合成真实的少数类样本,使数据变得更平衡。主要方法称为SMOTE,它在真实欺诈样本之间创建合成的类似欺诈点。他们还测试了一种更复杂的混合方法,该方法既添加少数类样本又移除嘈杂的多数类样本。通过对交易金额和时间进行谨慎缩放并将敏感细节隐藏在数学变换之后,他们准备出一个干净且保护隐私的数据集,供计算机学习。
构建一支数字欺诈猎人的团队
作者没有押注于单一算法,而是训练了37种不同的模型,这些模型来自经典机器学习、现代提升树和深度神经网络。然后他们设计了两种特殊的“堆叠集成”,像由专家组成的小组,其意见由最终裁判综合。在第一个集成中,一个快速的基于树的模型、一个善于识别模式的图像式网络和一个考虑序列的网络各自研究相同的交易。它们的输出再被输入到一个强大的提升器模型,后者学习应当多大程度地信任每位专家。第二个集成以类似的分层结构组合了多种基于树的提升器和森林。两种集成都先在原始偏斜数据上训练,然后在由SMOTE和混合方法生成的平衡版本上再次训练。

近乎完美的检测及其代价
在使用SMOTE创建的平衡数据上,两种提出的集成都在所有标准成功度量上达到惊人的高分:在该数据集中,它们几乎不会漏掉欺诈交易,也几乎不会对真实交易发出误报。当作者与许多单独模型以及以前使用相同数据发表的方法进行比较时,他们的堆叠系统始终名列前茅。他们还衡量了实用方面:训练所需时间和内存。以深度神经网络为主的集成计算开销更大,而以树为主的集成在时间和内存需求上明显更低,同时提供相似的准确性,使其对实时银行系统更具吸引力。
探视黑箱内部
高级人工智能常被担心像个黑箱:即便是设计者也可能不知道为何它把你的购买标记为可疑。为了解决这一点,该研究使用了两种解释工具,显示在单次决策和整个系统中哪些隐含特征最为重要。可视化分析揭示了一小组变换后的变量反复驱动欺诈预测,而许多其他变量仅起辅助作用。作者还检查了模型仍然出错的情况、出错时的置信度以及随着更多数据使用结果的稳健性。这些检查表明模型确实在学习稳定的模式,而不是简单地记住训练数据。
这对日常持卡人意味着什么
对非专家来说,结论令人安心:通过智能地平衡数据并让多种AI方法协同工作,银行可以构建在基准数据上极其准确且运行效率合理的欺诈检测器。同样重要的是,该系统可以解释其判定,这有助于机构信任并改进它,也有助于监管者理解其行为。尽管现实部署仍面临挑战——例如不断演化的犯罪手法和对快速连续更新的需求——这种混合方法为在不过度造成误报的情况下保护你的卡片提供了强有力的蓝图。
引用: Gamal, N., Younis, E.M.G. & Makram, W.M. Enhancing credit card fraud detection with a hybrid approach using machine and deep learning. Sci Rep 16, 10944 (2026). https://doi.org/10.1038/s41598-026-42891-4
关键词: 信用卡欺诈检测, 机器学习, 深度学习, 集成模型, 不平衡数据