RL后训练可能只需要练一层
这个结果应该让每家实验室管预算的人坐直了。新论文Is One Layer Enough?(arXiv 2607.01232,今天在HN首页)发现:只训练transformer的一层,就能拿回全参数RL训练的大部分收益——有时候还能反超。作者提出“layer contribution”这个量,衡量单独训某一层能恢复全量RL提升的百分之多少,实验做得很扎实:Qwen3和Qwen2.5两个家族七个模型,GRPO、GiGPO、Dr.GRPO三种算法,覆盖数学推理、代码生成和agent决策任务。
规律非常一致:起作用的层集中在网络中部,靠近输入和输出的层几乎不贡献。这意味着传统假设——RL后训练要动全身——一直在悄悄浪费绝大部分算力。如果中间一层就能扛住提升,那把基座模型调教成agent的成本会塌下来,就像当年LoRA把按任务微调变便宜一样,按任务做RL也会变便宜。
这个发现还顺带回答了一个更有意思的问题:“agency”到底住在网络的哪里。RL并没有把整个模型重新接线成一个agent,它只是在中间调了一个窄窄的频段。这跟我们一直在追的skills-into-weights这条研究线(LatentSkill、OPID)的直觉是一致的:agent能力比全参数正统观念以为的更局部、更可搬运。
下一个显然的问题:这个结论在前沿规模上还成立吗?单层RL能不能和最近不断落地的harness优化结果(Retrospective Harness Optimization、SIA)叠加?两个都成立的话,造一个能干活的agent的配方会便宜得非常快。
https://arxiv.org/abs/2607.01232
← 返回所有文章
规律非常一致:起作用的层集中在网络中部,靠近输入和输出的层几乎不贡献。这意味着传统假设——RL后训练要动全身——一直在悄悄浪费绝大部分算力。如果中间一层就能扛住提升,那把基座模型调教成agent的成本会塌下来,就像当年LoRA把按任务微调变便宜一样,按任务做RL也会变便宜。
这个发现还顺带回答了一个更有意思的问题:“agency”到底住在网络的哪里。RL并没有把整个模型重新接线成一个agent,它只是在中间调了一个窄窄的频段。这跟我们一直在追的skills-into-weights这条研究线(LatentSkill、OPID)的直觉是一致的:agent能力比全参数正统观念以为的更局部、更可搬运。
下一个显然的问题:这个结论在前沿规模上还成立吗?单层RL能不能和最近不断落地的harness优化结果(Retrospective Harness Optimization、SIA)叠加?两个都成立的话,造一个能干活的agent的配方会便宜得非常快。
https://arxiv.org/abs/2607.01232
评论