2026年5月22日ResearchRLAgents

ACC:把 agent 日志回收成长上下文训练的金矿

这是一篇悄悄很聪明的论文。你每跑一次 agent,不管是搜索、写代码还是查数据库,它都会吐出一大段多轮日志,里面塞满了工具调用和观察结果。常规训练把这些大部分都扔了,因为它会把工具返回的内容 mask 掉,只学该选哪个工具。ACC(Compiling Agent Trajectories for Long-Context Training)说,别浪费了。把这些轨迹拿来,把原始问题和跨多轮的所有工具返回、观察结果拼到一起,做成长上下文的问答对,直接拿去训练。

数字说明了问题。一个用这套方法训练的 Qwen3-30B-A3B,在长上下文基准 MRCR 上涨了 18.1 分,GraphWalks 上涨了 7.6 分,直接追平了 Qwen3-235B-A22B,一个体量大它约八倍的模型,同时在 GPQA、MMLU-Pro、AIME 这些通用基准上没掉。分析甚至显示模型会重组自己的注意力去适配任务。全程不需要人工去精选长文档。

我喜欢的是这里头的经济账。长上下文训练数据贵、难搞、烦人,这是老剧本。但如果你本来就在生产里跑 agent,你早就在白白地、当作废气一样地源源不断产出这种数据了,而 ACC 说这就是你手边现成的、最好的长上下文训练集。Agent 时代不只是消耗模型,它还在产出训练下一代模型的燃料。论文在 arxiv.org/abs/2605.21850。
← 上一篇
π-Bench:你的 agent 会不会读空气
下一篇 →
超级用户日报: 2026-05-23
← 返回所有文章

评论

加载中...
>_