Clear Sky Science · zh

使用基于注意力的架构重新思考上下文工程

· 返回目录

为什么更聪明的软件助手很重要

在商业应用中,你的每一次点击——登录、上传文件、运行报表——都会留下痕迹。如果软件能够可靠地预测你的下一步操作,它就能预加载数据、建议快捷方式并几乎即时响应。本文探讨了一种新的方法,教计算机如何理解这些操作轨迹,从而让数字助理能够提前预判你的下一步、你想要达成的目标以及你何时准备结束会话。

Figure 1
Figure 1.

从简单链到丰富模式

许多现有的用户下一步猜测系统依赖马尔可夫链这一经典数学工具,它仅看最近的一次操作来预测下一步。虽然这种“一步记忆”方法速度快且方便,但在真实工作场景中会失效——例如构建机器学习流水线或准备仪表板通常需要跨越许多步骤并使用不同工具。作者认为,这类简单模型错过了长程结构,只能同时处理单一预测目标,并且由于通常依赖私有日志和不透明的数据清洗决策,难以在研究之间进行公平比较。

一种新的多任务学习蓝图

为克服这些局限,文章引入了一种基于注意力的变换器模型——与现代语言工具同属一类技术——并将其重新构想用于用户行为。模型不再只学习一件事,而是同时训练以解决三项相关任务:预测下一步动作(即用户将调用哪个 API)、推断会话的总体目标(例如运行机器学习工作流、进行数据分析、管理用户或创建快速可视化)以及判断当前步骤是否可能是会话的最后一步。所有三项任务共享一个将近期操作历史转化为单一丰富语义表示的“主干”,然后分别由三个小型预测模块处理。

在仿真中构建现实测试床

由于真实企业活动日志通常敏感且难以共享,作者构建了一个复杂的模拟环境,模仿数据人员如何使用大型内部平台。他们定义了100个不同的 API,分为10个功能区,包括认证、数据输入、处理、模型训练、可视化、导出和管理。四类用户画像——数据科学家、业务分析师、开发者和高级用户——遵循具有特征性的但并非完美的工作流,概率设置反映了常规行为和偶发偏离。生成的数据集包含2000次用户会话和20000次 API 调用,会话目标如“机器学习流水线”和“快速可视化”会产生可识别的路径,如登录、加载数据、处理、制作图表并导出结果。

Figure 2
Figure 2.

模型预测能力如何

在这个结构化且多样化的环境中训练后,变换器模型表明基于注意力的学习能比旧方法更好地捕捉用户行为中的潜在规律。对于主要任务——在100个选项中猜测下一个 API 调用——它几乎有80%的时间完全命中,并且在其前五个建议中包含正确选项的比例超过99.9%,相比基础马尔可夫链提升了四倍以上。同时,它能在约82%的情况下正确识别用户的总体会话目标,并且几乎完美地检测到会话即将结束的时刻。作者还强调该模型相对紧凑且高效,使其在需要无明显延迟响应的实时助理中具有可行性。

供他人重用和扩展的工具

为了让他们的方法不仅仅是一次性实验,作者发布了一个开源软件包,名为 context-engineer,并提供完整的模拟数据集。有了这些资源,其他研究者和从业者可以复现报告的结果,在共享基准上测试替代模型,或通过将操作和会话标签映射为简单的数值格式来接入自己的内部日志。这种开放性解决了该领域的一个主要障碍:过去许多系统因数据和代码不可用而无法被公平比较或重用。

对日常用户的意义

对非专业读者而言,关键观点是:本文提出了一个实用方案,使数字工具显得更“先人一步”。通过联合学习人们试图做什么、他们可能接下来点击什么以及他们何时结束,会话变换器系统将用户历史转化为一种上下文感知。在实际应用中,这可能意味着在你提出请求之前就准备好下一份报告的聊天机器人、建议合理后续操作的分析平台,以及悄然减少等待时间的企业仪表板。尽管当前研究基于模拟数据,仍需在真实日志上进行测试,但它为在多种数字平台上构建更智能、更具预见性的软件助手奠定了清晰且可复现的基础。

引用: Yin, Y. Rethink context engineering using an attention-based architecture. Sci Rep 16, 8851 (2026). https://doi.org/10.1038/s41598-026-43111-9

关键词: 用户行为预测, 序列化推荐, 基于注意力的变换器, 主动式数字助理, 上下文工程