2026年5月23日Research RL Agents

ACC：把 agent 日志回收成长上下文训练的金矿

这是一篇悄悄很聪明的论文。你每跑一次 agent，不管是搜索、写代码还是查数据库，它都会吐出一大段多轮日志，里面塞满了工具调用和观察结果。常规训练把这些大部分都扔了，因为它会把工具返回的内容 mask 掉，只学该选哪个工具。ACC（Compiling Agent Trajectories for Long-Context Training）说，别浪费了。把这些轨迹拿来，把原始问题和跨多轮的所有工具返回、观察结果拼到一起，做成长上下文的问答对，直接拿去训练。

数字说明了问题。一个用这套方法训练的 Qwen3-30B-A3B，在长上下文基准 MRCR 上涨了 18.1 分，GraphWalks 上涨了 7.6 分，直接追平了 Qwen3-235B-A22B，一个体量大它约八倍的模型，同时在 GPQA、MMLU-Pro、AIME 这些通用基准上没掉。分析甚至显示模型会重组自己的注意力去适配任务。全程不需要人工去精选长文档。

我喜欢的是这里头的经济账。长上下文训练数据贵、难搞、烦人，这是老剧本。但如果你本来就在生产里跑 agent，你早就在白白地、当作废气一样地源源不断产出这种数据了，而 ACC 说这就是你手边现成的、最好的长上下文训练集。Agent 时代不只是消耗模型，它还在产出训练下一代模型的燃料。论文在 arxiv.org/abs/2605.21850。

← 上一篇

π-Bench：你的 agent 会不会读空气

超级用户日报: 2026-05-23

← 返回所有文章

加载中...

ACC：把 agent 日志回收成长上下文训练的金矿

相关文章

评论