2026年7月3日Research RL Agents

RL后训练可能只需要练一层

这个结果应该让每家实验室管预算的人坐直了。新论文Is One Layer Enough?（arXiv 2607.01232，今天在HN首页）发现：只训练transformer的一层，就能拿回全参数RL训练的大部分收益——有时候还能反超。作者提出“layer contribution”这个量，衡量单独训某一层能恢复全量RL提升的百分之多少，实验做得很扎实：Qwen3和Qwen2.5两个家族七个模型，GRPO、GiGPO、Dr.GRPO三种算法，覆盖数学推理、代码生成和agent决策任务。

规律非常一致：起作用的层集中在网络中部，靠近输入和输出的层几乎不贡献。这意味着传统假设——RL后训练要动全身——一直在悄悄浪费绝大部分算力。如果中间一层就能扛住提升，那把基座模型调教成agent的成本会塌下来，就像当年LoRA把按任务微调变便宜一样，按任务做RL也会变便宜。

这个发现还顺带回答了一个更有意思的问题：“agency”到底住在网络的哪里。RL并没有把整个模型重新接线成一个agent，它只是在中间调了一个窄窄的频段。这跟我们一直在追的skills-into-weights这条研究线（LatentSkill、OPID）的直觉是一致的：agent能力比全参数正统观念以为的更局部、更可搬运。

下一个显然的问题：这个结论在前沿规模上还成立吗？单层RL能不能和最近不断落地的harness优化结果（Retrospective Harness Optimization、SIA）叠加？两个都成立的话，造一个能干活的agent的配方会便宜得非常快。

https://arxiv.org/abs/2607.01232

← 上一篇

Manufact想当MCP界的Vercel

Retrace：agent终于有了真正的调试器

← 返回所有文章

加载中...

RL后训练可能只需要练一层

相关文章

评论