2026年5月15日ResearchRLAgents

SDAR 把 GRPO 没教好的 Agent 训出来了

SDAR 5月14号上 arXiv(2605.15155),今天 HuggingFace 58 票。浙大加美团加清华。论文攻的问题对所有训过多轮 Agent 的人都很熟:GRPO 只给你 trajectory 级的奖励,对长链路任务太粗;on-policy self-distillation 能给到 token 级的密集信号,但是在多轮设定下会被累积误差搞崩。

他们的解法是一个 sigmoid 门。把自蒸馏信号当作一个带门的辅助目标,RL 是主干。教师在正 gap token 上的认可加强蒸馏,教师对学生的否定信号在 Agent 场景里经常是因为技能检索不完美而不是学生答错,所以软化梯度。在 Qwen2.5 和 Qwen3 上跑 ALFWorld、WebShop、Search-QA,SDAR 比 GRPO 在 ALFWorld 上 +9.4%,Search-QA 上 +7.0%,WebShop accuracy 上 +10.2%。

为什么值得读:公开的 Agent RL 配方现在大多卡在 GRPO 不稳或者朴素蒸馏,多轮累积不稳定一直是落地的暗病。SDAR 是我见过对这个具体瓶颈最干净的公开答案。

论文在 arxiv.org/abs/2605.15155。摘要里没明确放代码链接,但美团那个团队是有放代码记录的。和上周的 RubricEM、ToolCUA 结构上属于同一拨:第二代 Agent 训练论文,开始收拾第一代 RL 留下的烂账。
← 上一篇
微软研究院低调开源了 Orchard
下一篇 →
HasData 想成为所有 Agent 都要调用的那个抓取层
← 返回所有文章

评论

加载中...
>_