Clear Sky Science · zh
Tierra:多层阵列与考虑新近性的热点数据决策
为什么有些数据应当走快车道
每次你在线观看电影、叫车或查看银行余额时,计算机都会在背后悄然决定哪些信息应放在触手可及的位置,哪些可以被推到后架。“热”数据(经常使用)与“冷”数据(很少使用)之间的划分,对让现代应用呈现即时响应至关重要。随着存储硬件变得愈加复杂且数据量激增,这些决策变得更难也更重要。本文介绍了 Tierra,一种快速且准确识别热点数据的新方法,帮助未来的存储系统更快、更耐用。
在海量数据中寻找热点的挑战
在后台,大型服务依赖多层内存与存储,从片上微小缓存到固态硬盘以及新兴的非易失性内存。将频繁使用的数据保留在最快的层级可以显著减少等待时间;在基于闪存的设备中,这还能通过把重复写入引导到合适位置来延长硬件寿命。但要判定什么是真正的热点并不容易。早期方法常常跟踪每个数据块被访问的次数,却忽视了这些访问发生的时机——即最近性。较新的技术尝试用称为 Bloom 过滤器的数据结构同时结合最近性与频率,这类结构高效但具有概率性。随着负载规模和多样性增长,这些方法要么误判过多数据,要么消耗过多内存和计算资源,或两者兼有。
读取模式而不是每一步都详察
Tierra 采取了不同路径:它不是对每个数据块做全量检查,而是先观察请求随时间到达的模式。一个关键概念是“栈距离”,衡量两次访问同一数据之间触及的不同项数。小的栈距离意味着该项很快会被再次访问,很可能是热的;大的栈距离则表明是冷数据。精确计算该指标代价高昂,因此作者改进了早期的近似方法。他们限定了保留历史的大小,丢弃非常旧的引用,防止估算随时间漂移。这个“容量固定”设计在限制内存和查找开销的同时保持了近似质量,即便存在数百万个唯一请求。
让智能门卫筛掉人群
借助栈距离,Tierra 的第二阶段作为进入请求的门卫。如果请求的距离高于选定阈值,它几乎可以确定为冷数据,会被立即过滤掉。若看起来有希望,请求则被作为热点候选传递下去。关键在于,这个筛选层不仅仅给出是或否:它还基于该请求及其上一次出现的时间,为每个候选项分配一个初始“热度分”。如此一来,即便一些请求被丢弃,它们的时间信息仍然能影响后续决策。实验表明,这种考虑新近性的筛选比旧的过滤器额外去除约 1.5 倍的冷数据,同时错误丢弃的热项几乎减少了 20 倍。
尊重新鲜度的分层货架
通过门卫的请求进入 Tierra 的核心结构:四个不同大小的数组,类似分层货架。每个条目记录对数据的引用和两个紧凑的时间戳,描述上次见到该数据的时间。最近且被频繁访问的项目自然滞留在上层货架,而较旧、活动较少的项会下沉到更小的下层,并最终被逐出。当请求到达时,Tierra 会检查它是否已位于某个货架上;如果是,就更新时间戳并累加其存储的热度分,包括最多三次之前的触及,以决定当前该数据是否应被视为热点。通过将数组做成不对称——上层较大、下层较小——Tierra 大幅减少内部换位,与大小相等的层级相比,数据移动量约减少三倍。
Tierra 在现实世界中的表现
作者使用来自云服务、智能手机、企业台式机和笔记本的十六个真实存储追踪对 Tierra 进行了测试。他们将其与若干代表性基线方法比较,包括基于滑动窗口的传统计数、基于哈希的方案以及最新的基于 Bloom 过滤器的热点检测器。在这些多样化的负载中,Tierra 标记为热点的数据比例与受信任的窗口基线非常接近,但错误更少:其总体误分类率平均仅为 0.6%。这大约比一个经典方案低 31 倍,比一种改进的双层 Bloom 过滤器低 13 倍,比之前的最先进方法 Multigrain 好 5 倍。同时,得益于早期筛选和粗粒度的请求处理,Tierra 运行更快,执行时间比竞争方法少 1.4–1.7 倍。
这对你依赖的系统意味着什么
简而言之,Tierra 让计算机更清晰地识别出真正需要保持在近端的数据。通过结合对访问历史的有界智能观察、考虑新近性的筛选门和经过精心分层的数组集合,它在速度、内存成本和准确性之间取得了旧方法无法达到的平衡。对于云服务提供商和设备制造商,这意味着响应更迅速、对昂贵快速内存的利用更好以及存储硬件寿命更长。对于普通用户,则意味着他们依赖的应用和服务能在数据不断增长的情况下保持流畅而不至于变慢。
视觉指南:总体概览

视觉指南:Tierra 内部工作原理

引用: Lee, H., Park, D. Tierra: multi-tiered arrays and recency-aware hot data decision. Sci Rep 16, 13733 (2026). https://doi.org/10.1038/s41598-026-44185-1
关键词: 热点数据识别, 存储系统, 非易失性内存, 缓存局部性, 性能优化