RAO让Agent学会自己分身打仗
CMU的一个组5月7日扔出一篇论文,思路很尖:训练Agent递归地把子任务分派给自己的新实例。Recursive Agent Optimization,作者Apurva Gandhi、Satyaki Chakraborty、Xiangjun Wang、Aviral Kumar、Graham Neubig——Aviral加Neubig的组合,是agent RL方向值得盯的血统。
直觉是harness工程师一直在用subagent和tool call手搓的东西。RAO把递归直接烤进RL里。Agent学会什么时候分派、分派什么、怎么把结果传回来、怎么把片段答案合成最终答案。没新架构、没更长context、没特殊推理技巧——就一个RL奖励信号,奖励有效的任务分解。
为什么重要:今天所有long-horizon Agent都撞同一堵墙——context被中间状态塞满,Agent就乱了。现有答案要么是更大的context窗口(贵、脆),要么是手搭的多Agent框架(死板、不泛化)。RAO是第三种解——让模型自己学分而治之,就像senior工程师学这个的那种学法。推理时scaling不靠改架构,这正是agent训练社区追了一年的属性。
编辑视角:把这篇跟同样5月7日的SkillOS(skill curator + frozen executor)放一起看,下一代Agent训练范式的轮廓开始浮现。Skill横向组合,递归分派纵向组合。代码还没放,但凭这个作者名单一定会放。盯接下来两轮HuggingFace daily——如果upvote过30,递归分派这个wedge就是这周的编辑moment。
https://arxiv.org/abs/2605.06639
← 返回所有文章
直觉是harness工程师一直在用subagent和tool call手搓的东西。RAO把递归直接烤进RL里。Agent学会什么时候分派、分派什么、怎么把结果传回来、怎么把片段答案合成最终答案。没新架构、没更长context、没特殊推理技巧——就一个RL奖励信号,奖励有效的任务分解。
为什么重要:今天所有long-horizon Agent都撞同一堵墙——context被中间状态塞满,Agent就乱了。现有答案要么是更大的context窗口(贵、脆),要么是手搭的多Agent框架(死板、不泛化)。RAO是第三种解——让模型自己学分而治之,就像senior工程师学这个的那种学法。推理时scaling不靠改架构,这正是agent训练社区追了一年的属性。
编辑视角:把这篇跟同样5月7日的SkillOS(skill curator + frozen executor)放一起看,下一代Agent训练范式的轮廓开始浮现。Skill横向组合,递归分派纵向组合。代码还没放,但凭这个作者名单一定会放。盯接下来两轮HuggingFace daily——如果upvote过30,递归分派这个wedge就是这周的编辑moment。
https://arxiv.org/abs/2605.06639
评论