2026年4月29日Research RL Agents

TCOD — multi-turn agent 训练里那个偷偷坑你的 KL bug 终于被点名了

April 27 上 arXiv 的 TCOD 把 multi-turn agent training 一直没人讲清楚的一个 bug 点名了。CUHK 加阿里加 KAUST 联合出品。

问题叫 trajectory-level KL instability。on-policy distillation 是训小 agent 的标准做法——大模型当 teacher，小模型边和环境交互边模仿。但他们发现在 multi-turn 任务里出现一个怪现象：训练 KL 散度一路上升，success rate 反而下降。原因是 inter-turn error compounding——前几步小错误累积，把 student 推到 teacher 的有效指导范围之外，越训越偏。

解法朴素到让人觉得早就该有人做：curriculum schedule。一开始只让 student 看到短轨迹（比如前 3 步），慢慢扩到长轨迹。让模型先学会在 teacher 的舒适区里做对，再学自己撑过没人指导的地方。

ALFWorld、WebShop、ScienceWorld 三个 benchmark，四对 student-teacher 组合，最高 18 分提升。更夸张的：student 在某些任务上反超 teacher，并且能 generalize 到 teacher 直接 fail 的情况。

这篇是 agent pretrain / agent skill 学习这一波里那种早就该有人做的工程类论文。multi-turn RL 这个领域过去半年从 Tool Attention 到 SkillSynth 再到 RecursiveMAS 一直在补不同 corner case，TCOD 是把训 agent 时 naive KL minimization 反而坑你这一步明确诊断出来的第一篇。生产里训 agent 的团队都该看一下，方法论简单得能直接接到现有 pipeline，几行代码的事。

arXiv: https://arxiv.org/abs/2604.24005

← 上一篇

Plurai — 描述你的 agent，自动给它训出一个评估器

超级用户日报: 2026-04-30

← 返回所有文章

加载中...

TCOD — multi-turn agent 训练里那个偷偷坑你的 KL bug 终于被点名了

更多文章

评论