2026年4月29日Agents Research Framework

斯坦福把多 Agent 系统当一个模型来训

斯坦福联合一票合作者今天放出 RecursiveMAS。命题一句话讲完，但做出来很难。把一个多 agent 系统看成隐空间里的一团递归计算，端到端用梯度做credit assignment，整个系统当一个模型训。他们用一个小小的 RecursiveLink 模块把多个 agent 串起来，跑内外循环联合优化整个栈。

数字撑得起这个赌注。九个 benchmark 上准确率平均涨 8.3 分，覆盖数学、科学、医学、搜索、代码。端到端推理快 1.2 到 2.4 倍。token 消耗砍掉 34.6 到 75.6 个百分点。在四种代表性 agent 协作模式下都能 hold 住。不是 prompt 工程花活，是把多 agent 系统当成一整个可微对象来处理。

关键梗在结果表的最后一列。多 agent 系统最费钱的从来是 token 膨胀——每个 agent 把上下文再解释一遍、每次 handoff 把状态拖一遍、debate 多一轮成本翻一倍。RecursiveMAS 用一半的 token 跑出更高的准确率。对开发者的意思是：手工搭的 debate 链路、啰里啰嗦的工具调用，都是在白白浪费算力，梯度训出来的递归协作可以把这些钱省回来。

Agent 训练这个论题终于有了硬数据点。如果说 skill graph、tool 数据按预训练方式扩规模是 agent 革命的供给侧，RecursiveMAS 就是需求侧：训出来的协作打过 prompt 出来的协作。下一轮 agent 平台发布里应该能看到这套架构。

链接 https://recursivemas.github.io

← 上一篇

Anthropic 不肯给五角大楼，Google 接走了

AutoResearchBench：最强 Agent 找论文准确率 9%

← 返回所有文章

加载中...

斯坦福把多 Agent 系统当一个模型来训

相关文章

评论