2026年5月23日ResearchRL

DelTA:别再让格式 token 劫持你的 RL 信号

DelTA 这周登顶了 Hugging Face papers,它背后的想法乍听像是管道工的活,直到你意识到它正悄悄改变每一个用 RL 训练的推理模型到底是怎么学的。当你用可验证奖励的强化学习(RLVR)训练模型时,一个正确答案会得到一个赞,而这个赞得反向摊回到所有生成它的 token 上。作者证明,标准做法会被高频垃圾主导:格式 token、模板话、那些不管答对答错都会出现在每个回答里的词。而真正区分好答案和坏答案的稀疏 token,被淹没了。

DelTA 用判别器的视角把整件事重新框了一遍。事实证明,一次策略梯度更新的行为,就像一个线性判别器在决定哪些 token 被推高、哪些被压低。于是 DelTA 去估计每个 token 的系数,放大那些真正区分高奖励和低奖励回答的模式,压低那些共有的填充词。在七个数学基准上,它在 Qwen3-8B-Base 上比同类基线高约 3.26 分,Qwen3-14B-Base 上高 2.62 分,在代码生成和域外测试上也站得住。

一个这么小的改动能拿下本周 HF 最高赞,原因是它其实不是关于某个基准上的某个数字。它是对 RLVR 到底在一个 token 一个 token 地对模型做什么,给出了一套更干净的理论,而栈最底层一个更锐利的信号,会顺着往下流进每一个建在它之上的 agent 和推理系统。基准上多三分当然不错,但真正会滚雪球的,是一个被理解得更透的学习信号。论文在 arxiv.org/abs/2605.21467。
← 上一篇
MOSS:让 agent 改写自己的源代码
下一篇 →
超级用户日报: 2026-05-24
← 返回所有文章

评论

加载中...
>_