2026年5月8日Research RL Agents

RAO让Agent学会自己分身打仗

CMU的一个组5月7日扔出一篇论文，思路很尖：训练Agent递归地把子任务分派给自己的新实例。Recursive Agent Optimization，作者Apurva Gandhi、Satyaki Chakraborty、Xiangjun Wang、Aviral Kumar、Graham Neubig——Aviral加Neubig的组合，是agent RL方向值得盯的血统。

直觉是harness工程师一直在用subagent和tool call手搓的东西。RAO把递归直接烤进RL里。Agent学会什么时候分派、分派什么、怎么把结果传回来、怎么把片段答案合成最终答案。没新架构、没更长context、没特殊推理技巧——就一个RL奖励信号，奖励有效的任务分解。

为什么重要：今天所有long-horizon Agent都撞同一堵墙——context被中间状态塞满，Agent就乱了。现有答案要么是更大的context窗口（贵、脆），要么是手搭的多Agent框架（死板、不泛化）。RAO是第三种解——让模型自己学分而治之，就像senior工程师学这个的那种学法。推理时scaling不靠改架构，这正是agent训练社区追了一年的属性。

编辑视角：把这篇跟同样5月7日的SkillOS（skill curator + frozen executor）放一起看，下一代Agent训练范式的轮廓开始浮现。Skill横向组合，递归分派纵向组合。代码还没放，但凭这个作者名单一定会放。盯接下来两轮HuggingFace daily——如果upvote过30，递归分派这个wedge就是这周的编辑moment。

https://arxiv.org/abs/2605.06639

← 上一篇

Voi创始人拿了a16z 1600万美元做Pit，把产品团队当服务卖

learn-claude-code 59K star，专门教你拆Claude Code的脚手架

← 返回所有文章

加载中...

RAO让Agent学会自己分身打仗

更多文章

评论