2026年5月15日Research RL Agents

SDAR 把 GRPO 没教好的 Agent 训出来了

SDAR 5月14号上 arXiv（2605.15155），今天 HuggingFace 58 票。浙大加美团加清华。论文攻的问题对所有训过多轮 Agent 的人都很熟：GRPO 只给你 trajectory 级的奖励，对长链路任务太粗；on-policy self-distillation 能给到 token 级的密集信号，但是在多轮设定下会被累积误差搞崩。

他们的解法是一个 sigmoid 门。把自蒸馏信号当作一个带门的辅助目标，RL 是主干。教师在正 gap token 上的认可加强蒸馏，教师对学生的否定信号在 Agent 场景里经常是因为技能检索不完美而不是学生答错，所以软化梯度。在 Qwen2.5 和 Qwen3 上跑 ALFWorld、WebShop、Search-QA，SDAR 比 GRPO 在 ALFWorld 上 +9.4%，Search-QA 上 +7.0%，WebShop accuracy 上 +10.2%。

为什么值得读：公开的 Agent RL 配方现在大多卡在 GRPO 不稳或者朴素蒸馏，多轮累积不稳定一直是落地的暗病。SDAR 是我见过对这个具体瓶颈最干净的公开答案。

论文在 arxiv.org/abs/2605.15155。摘要里没明确放代码链接，但美团那个团队是有放代码记录的。和上周的 RubricEM、ToolCUA 结构上属于同一拨：第二代 Agent 训练论文，开始收拾第一代 RL 留下的烂账。

← 上一篇

微软研究院低调开源了 Orchard

HasData 想成为所有 Agent 都要调用的那个抓取层

← 返回所有文章

加载中...

SDAR 把 GRPO 没教好的 Agent 训出来了

更多文章

评论