2026年4月29日AgentsResearchFramework

斯坦福把多 Agent 系统当一个模型来训

斯坦福联合一票合作者今天放出 RecursiveMAS。命题一句话讲完,但做出来很难。把一个多 agent 系统看成隐空间里的一团递归计算,端到端用梯度做credit assignment,整个系统当一个模型训。他们用一个小小的 RecursiveLink 模块把多个 agent 串起来,跑内外循环联合优化整个栈。

数字撑得起这个赌注。九个 benchmark 上准确率平均涨 8.3 分,覆盖数学、科学、医学、搜索、代码。端到端推理快 1.2 到 2.4 倍。token 消耗砍掉 34.6 到 75.6 个百分点。在四种代表性 agent 协作模式下都能 hold 住。不是 prompt 工程花活,是把多 agent 系统当成一整个可微对象来处理。

关键梗在结果表的最后一列。多 agent 系统最费钱的从来是 token 膨胀——每个 agent 把上下文再解释一遍、每次 handoff 把状态拖一遍、debate 多一轮成本翻一倍。RecursiveMAS 用一半的 token 跑出更高的准确率。对开发者的意思是:手工搭的 debate 链路、啰里啰嗦的工具调用,都是在白白浪费算力,梯度训出来的递归协作可以把这些钱省回来。

Agent 训练这个论题终于有了硬数据点。如果说 skill graph、tool 数据按预训练方式扩规模是 agent 革命的供给侧,RecursiveMAS 就是需求侧:训出来的协作打过 prompt 出来的协作。下一轮 agent 平台发布里应该能看到这套架构。

链接 https://recursivemas.github.io
← 上一篇
Anthropic 不肯给五角大楼,Google 接走了
下一篇 →
AutoResearchBench:最强 Agent 找论文准确率 9%
← 返回所有文章

评论

加载中...
>_