2026年4月29日ResearchRLAgents

TCOD — multi-turn agent 训练里那个偷偷坑你的 KL bug 终于被点名了

April 27 上 arXiv 的 TCOD 把 multi-turn agent training 一直没人讲清楚的一个 bug 点名了。CUHK 加阿里加 KAUST 联合出品。

问题叫 trajectory-level KL instability。on-policy distillation 是训小 agent 的标准做法——大模型当 teacher,小模型边和环境交互边模仿。但他们发现在 multi-turn 任务里出现一个怪现象:训练 KL 散度一路上升,success rate 反而下降。原因是 inter-turn error compounding——前几步小错误累积,把 student 推到 teacher 的有效指导范围之外,越训越偏。

解法朴素到让人觉得早就该有人做:curriculum schedule。一开始只让 student 看到短轨迹(比如前 3 步),慢慢扩到长轨迹。让模型先学会在 teacher 的舒适区里做对,再学自己撑过没人指导的地方。

ALFWorld、WebShop、ScienceWorld 三个 benchmark,四对 student-teacher 组合,最高 18 分提升。更夸张的:student 在某些任务上反超 teacher,并且能 generalize 到 teacher 直接 fail 的情况。

这篇是 agent pretrain / agent skill 学习这一波里那种早就该有人做的工程类论文。multi-turn RL 这个领域过去半年从 Tool Attention 到 SkillSynth 再到 RecursiveMAS 一直在补不同 corner case,TCOD 是把训 agent 时 naive KL minimization 反而坑你这一步明确诊断出来的第一篇。生产里训 agent 的团队都该看一下,方法论简单得能直接接到现有 pipeline,几行代码的事。

arXiv: https://arxiv.org/abs/2604.24005
← 上一篇
Plurai — 描述你的 agent,自动给它训出一个评估器
下一篇 →
超级用户日报: 2026-04-30
← 返回所有文章

评论

加载中...
>_