2026-04-22

谷歌发布ReasoningBank智能体记忆框架

摘要

谷歌研究院近日公开了一项面向智能体系统的重要研究成果——ReasoningBank记忆框架，该方案试图解决大模型智能体在真实环境中“只会执行、难以积累经验”的问题。

谷歌研究院近日公开了一项面向智能体系统的重要研究成果——ReasoningBank记忆框架，该方案试图解决大模型智能体在真实环境中“只会执行、难以积累经验”的问题。随着AI Agent逐渐从实验走向生产环境，如何让模型具备持续学习与自我优化能力，已经成为行业关注的核心方向之一，而这一框架正是在这一背景下提出的系统性尝试。

从技术设计来看，ReasoningBank的核心变化在于重构了智能体的“记忆方式”。传统方案往往依赖完整的操作轨迹记录，例如一步一步保存执行动作，或者仅保留成功案例形成流程模板。但这些方法存在明显局限：前者过于细碎，难以复用；后者则忽略失败经验，导致系统学习不完整。而ReasoningBank则转向“推理模式”存储，将任务经验抽象为可迁移的策略单元，并以结构化方式记录，包括标题、描述与内容三部分，使其更适合跨任务复用。

具体来看，该框架有几个关键改进点。首先，它不仅记录成功路径，也主动纳入失败案例，并通过模型自评机制将错误执行拆解为可执行的规则，从而避免重复踩坑。例如原本简单的“看到按钮就点击”，在失败分析后会被升级为带条件判断的策略。其次，它引入了“检索式执行”机制，在执行新任务前先从记忆库中调用相似经验，从而减少试错成本。第三，它通过大模型对历史轨迹进行再分析，让记忆本身也具备不断优化的能力，而不是静态存储。

在此基础上，论文还提出了Memory-aware Test-time Scaling（MaTTS）机制，用于进一步提升智能体在复杂任务中的表现。这一方法允许系统在推理阶段投入更多计算资源，通过多次尝试生成不同轨迹，并将探索结果同步写入记忆库。同时还包括两种扩展方式：一种是并行扩展，让智能体同时执行多条路径并进行对比筛选；另一种是顺序扩展，在单条路径中不断优化中间步骤，从而逐步提升策略质量。

从实验结果来看，这一框架在多个标准任务上表现出稳定提升。在WebArena浏览器操作任务中，成功率提升约8.3个百分点，在代码修复基准SWE-Bench-Verified上也有约4.6个百分点的增长，同时平均操作步骤明显减少。这意味着智能体不仅更容易完成任务，而且执行过程更简洁高效。在引入MaTTS并行策略后，性能还进一步提升，显示出“算力+记忆”结合的潜力。

从行业角度看，这一进展反映出智能体研究正在从“能力增强”转向“经验积累”。过去的大模型更像是一次性执行工具，每次任务之间缺乏关联，而ReasoningBank试图让智能体形成类似人类的经验系统，通过不断回顾过去的成功与失败来优化未来行为。一个明显变化是，AI不再只是回答问题或执行指令，而开始具备“学习如何更好完成任务”的能力。

值得注意的是，这一方向与当前智能体发展趋势高度一致。在自动化办公、代码生成以及浏览器操作等场景中，单次能力已不再是瓶颈，持续表现稳定性与自适应能力才是关键。此前业界已有类似探索，例如基于工作流记忆或行为日志优化的系统，但大多仍停留在规则层面，而ReasoningBank则更进一步，将“推理方式”本身作为可学习对象。

从趋势判断来看，未来智能体系统可能会逐步形成三层结构：基础模型负责推理能力，工具系统负责执行能力，而记忆系统则负责经验沉淀与策略优化。ReasoningBank所代表的方向，正是在补齐第三层能力，使智能体从“会做事”走向“越做越聪明”。

整体而言，这一框架不仅是一次技术优化，更像是智能体架构的一次方向调整。当经验开始被结构化、可检索并可再学习时，AI系统的长期进化路径也将随之发生变化，而这一变化可能会在未来多个应用场景中逐步显现。