Clear Sky Science · zh

使用基于机器学习的分类和带 Ramanujan 素数的 ElGamal 加密实现安全数据传输的创新框架

2026-02-26 · 返回目录

为什么保护日常消息很重要

每天，银行、医院和政府都会发送短小的数字消息，内容从常规新闻提醒到高度敏感的账户更新不等。将所有这些消息一视同仁地当作同等机密会浪费计算资源，而过于宽松又可能让人们面临欺诈和隐私泄露的风险。本文探讨了一种自动将消息按敏感性排序并用相应级别的加密保护的方法，旨在在安全性、速度和资源使用之间取得平衡。

把无害便条和重要警报区分开

首先，作者构建了一个简单的文本分类系统，把普通消息（如一般新闻标题）与高度敏感的消息（如银行通知和交易提醒）分开。他们创建了一个由 200 条简短、精心编写的句子组成的小型数据集，一半为金融类，一半为一般新闻，并通过去除标点、数字和常见停用词对文本进行清理。每条消息都用一种标准技术转换为数值指纹，该技术强调在某条消息中频繁出现但在整体中罕见的词。作者测试了多种常用的机器学习方法，包括 K 近邻、支持向量机、线性判别分析和 K 均值聚类。通过五折交叉验证以避免过拟合，支持向量机模型表现出最准确且稳定的性能，因此被选为判断一条消息是普通还是敏感的首选工具。

两条加密路径对应两类数据

一旦消息被标记，它们便沿两条加密路径之一传输。一般敏感消息使用标准的 ElGamal 公钥方案保护，这是一种基于离散对数问题难度的知名方法。高度敏感的消息则走一条修改过的路径：在数据的加密和解密方式上与普通路径相同，但在选择关键秘密数之一（即素数模数）时有所不同。在这里，作者尝试使用一类特殊的素数——Ramanujan 素数，这类素数在素数序列中的间距具有有趣的性质。重要的是，作者强调这种选择并不会使底层数学问题更难破解；相反，它提供了一种结构化且新颖的生成密钥的方法，而不改变 ElGamal 已有的安全基础。

验证消息未被篡改

仅靠加密并不能保证消息在传输过程中未被修改。为此，框架在每条加密消息发送前附加了基于哈希的消息认证码（HMAC）。该机制使用共享密钥和单向哈希函数生成一个紧凑的标签，如果消息哪怕一个比特被修改，标签也会改变。在接收端，使用相同的密钥和哈希重新计算标签并与收到的标签比较；只有匹配时消息才被视为真实可信。作者在同一个 Python 程序中实现了所有步骤——分类、密钥生成、加密、解密和 HMAC——并评估了每个操作所需时间以及单位时间内可处理的数据量。

计时结果表明了什么

性能测试比较了普通敏感消息和高度敏感消息在有无 HMAC 的情况下的处理情况。正如预期，增加认证会提高所有消息的处理时间。当在高度敏感路径中使用 Ramanujan 素数时，这类消息的加密和解密在平均数据速率和吞吐量上低于普通路径，意味着系统每毫秒处理的千字节更少，每比特数据的处理时间更长。从通俗角度看，该框架有意在最敏感的流量上投入更多时间和计算资源，而不太重要的消息则更快通过。与此同时，作者指出，对关键数据的额外开销伴随的是单位数据的内存使用量降低，这可能有助于在繁忙的服务器上将资源需求保持在可管理范围内。

这项工作对安全通信的意义

简而言之，研究表明可以设计出一种安全系统，自动评估消息的敏感性，然后将其引导到相应级别的保护路径，同时保留受信任加密方法的核心安全保障。使用 Ramanujan 素数为密钥选择带来了数学上的新颖性，但并不声称比标准 ElGamal 更强。尽管文本分类器只是建立在一个小型、精心挑选的数据集上的概念验证，整体架构仍指向未来的系统，在这些系统中，日常消息、金融提醒和医疗更新可以被不同但一致地处理，从而在不损害人们最关心的信息隐私和完整性的前提下节省计算资源。

引用: Haritha, N., Narayanan, V. & Srikanth, R. An innovative framework for secure data transmission using machine learning based classification and ElGamal encryption with Ramanujan primes. Sci Rep 16, 11090 (2026). https://doi.org/10.1038/s41598-026-40797-9

关键词: 安全数据传输, 文本分类, 公钥加密, Ramanujan 素数, HMAC 认证