Clear Sky Science · zh

机器学习发现新的冠军编码

· 返回目录

这对你的数字生活为何重要

你发送的每张照片、观看的每部电影或穿越太空的每个信号,背后都由纠错码默默保护——这些数学技巧能发现并修复数据中的故障。让这些编码更强意味着更少的通话掉线、更快的互联网、更可靠的深空通信和更高密度的数据存储。本文展示了现代人工智能——与大型语言模型相同类型的技术——如何帮助发现打破纪录的“冠军”编码,这些编码的表现超越了人类专家此前找到的结果。

Figure 1
图 1。

让信息免受噪声侵扰

当信息传输时——无论是通过 Wi‑Fi、海底电缆,还是在地球与遥远航天器之间——都可能被噪声扭曲。纠错码通过添加精心设计的额外比特来防护,从而能够检测并经常修复错误。衡量编码强度的关键指标称为最小汉明距离,粗略来说它表明了对手或有噪信道需要修改多少位才能把一个有效消息变成另一个。对于给定规模达到已知最大距离的编码被称为冠军编码。寻找这样的冠军极其困难:精确检验单个候选编码可能需要巨大的暴力搜索,且随着问题规模增长呈爆炸式增长。

让智能模型猜测难以计算的部分

作者关注一种数学上丰富的族——广义托里克编码(generalised toric codes),它们由网格上的点模式构成。与其穷尽地测试每一种可能性,他们训练了一个 transformer——一种在语言模型中广泛使用的神经网络架构——直接从定义矩阵估计编码的强度(最小距离)。使用在两个有限数域 F7 和 F8 上的数百万样本,该模型学习以通常在真实值附近三个单位以内的误差预测距离,均方绝对误差接近一。该精度足以在不每次运行缓慢精确算法的情况下,把有前途的候选编码与弱编码区分开来。

在编码空间中的进化

为了将这些快速预测转化为新发现,团队将 transformer 与遗传算法结合——这是一种受进化启发的优化方法。在这里,种群中的每个个体是一组定义编码的网格点。世代通过选择更优个体、重组它们的点集,并偶尔变异以探索新区域来推进。候选的适应度基于模型预测的距离,并被调整以偏好目标尺寸的编码并避免重复发现相同解。只有当预测表明某个编码可能非常出色时,研究者才会投入昂贵的计算资源去精确验证其真实距离。

Figure 2
图 2。

胜过随机搜索并发现新的纪录保持者

应用于 F7 上的编码时,这种组合方法可靠地重新发现了此前经由艰苦数学与计算工作得到的冠军托里克编码。更令人印象深刻的是,在更复杂的 F8 情形——此前方法因搜索空间天文般巨大而陷入停滞——该方法发现了 500 多个冠军候选,并至少确认了六个先前未知的冠军。通过与随机搜索比较,作者表明他们的策略在最困难的情形下可以把昂贵精确评估的次数大致减半——当每次检验都可能代价高昂时,这是显著的节省。

对未来的意义

对非专业读者来说,结论是人工智能能引导我们穿越巨大的数学景观,这些景观否则难以企及。通过学习粗略地形——哪些区域更可能出现优良编码——并将进化式搜索引导到最有希望的区域,transformer 与遗传算法的组合把一个暴力搜索中的大海捞针问题转变为更有针对性的寻宝。作者预计,随着更大数据集、更好的模型与进一步调优,类似技术可加速多种纠错码的设计,包括面向未来通信网络甚至量子计算机的编码。

引用: He, YH., Kasprzyk, A.M., Le, Q. et al. Machine learning discovers new champion codes. npj Artif. Intell. 2, 37 (2026). https://doi.org/10.1038/s44387-026-00077-3

关键词: 纠错码, 机器学习, 遗传算法, 数字通信, 编码理论