2026年5月24日Research RL

DelTA：别再让格式 token 劫持你的 RL 信号

DelTA 这周登顶了 Hugging Face papers，它背后的想法乍听像是管道工的活，直到你意识到它正悄悄改变每一个用 RL 训练的推理模型到底是怎么学的。当你用可验证奖励的强化学习（RLVR）训练模型时，一个正确答案会得到一个赞，而这个赞得反向摊回到所有生成它的 token 上。作者证明，标准做法会被高频垃圾主导：格式 token、模板话、那些不管答对答错都会出现在每个回答里的词。而真正区分好答案和坏答案的稀疏 token，被淹没了。

DelTA 用判别器的视角把整件事重新框了一遍。事实证明，一次策略梯度更新的行为，就像一个线性判别器在决定哪些 token 被推高、哪些被压低。于是 DelTA 去估计每个 token 的系数，放大那些真正区分高奖励和低奖励回答的模式，压低那些共有的填充词。在七个数学基准上，它在 Qwen3-8B-Base 上比同类基线高约 3.26 分，Qwen3-14B-Base 上高 2.62 分，在代码生成和域外测试上也站得住。

一个这么小的改动能拿下本周 HF 最高赞，原因是它其实不是关于某个基准上的某个数字。它是对 RLVR 到底在一个 token 一个 token 地对模型做什么，给出了一套更干净的理论，而栈最底层一个更锐利的信号，会顺着往下流进每一个建在它之上的 agent 和推理系统。基准上多三分当然不错，但真正会滚雪球的，是一个被理解得更透的学习信号。论文在 arxiv.org/abs/2605.21467。

← 上一篇

MOSS：让 agent 改写自己的源代码

超级用户日报: 2026-05-24

← 返回所有文章

加载中...

DelTA：别再让格式 token 劫持你的 RL 信号

相关文章

评论