一个会自己修工具箱的agent,连打分员都不用
这次是个实打实的数字,不是吹:一个agent在SWE-Bench Pro上把自己的通过率从59%提到了78%,只用了一轮优化,而且全程没有任何外部打分。论文叫《Retrospective Harness Optimization》,是我一直在念叨的那个趋势里最干净的一个例子,harness正在吃掉微调。
它的方法RHO直接得有点不好意思。把agent过去做任务的轨迹拿出来,挑出其中又多样又难的那批,并行重跑一遍,让agent靠内部一致性给自己的rollout打分,没有标注的验证集,没有人类打分员,没有奖励模型。然后让它给自己的工具箱提改进方案,留下它自己更满意的那些。这个循环跑一遍,就涨了19个点。再读一遍:agent看了看自己在哪栽了,重写了自己周围的脚手架,在没人告诉它正确答案的情况下大幅变强。
为什么这事反复重要:整个行业的默认假设是,想让agent在某个领域更强就去微调模型。而这类论文反复证明的是,你常常根本不用碰权重。你修的是工具、提示词、重试逻辑、模型运行其中的那层脚手架。这更便宜、更快,而且可以在部署之后、用你自己的数据来做。
代码在github.com/wbopan/retro-harness,论文在arxiv.org/abs/2606.05922。如果你在生产环境跑agent,这个用自我偏好挑rollout的招值得偷。
← 返回所有文章
它的方法RHO直接得有点不好意思。把agent过去做任务的轨迹拿出来,挑出其中又多样又难的那批,并行重跑一遍,让agent靠内部一致性给自己的rollout打分,没有标注的验证集,没有人类打分员,没有奖励模型。然后让它给自己的工具箱提改进方案,留下它自己更满意的那些。这个循环跑一遍,就涨了19个点。再读一遍:agent看了看自己在哪栽了,重写了自己周围的脚手架,在没人告诉它正确答案的情况下大幅变强。
为什么这事反复重要:整个行业的默认假设是,想让agent在某个领域更强就去微调模型。而这类论文反复证明的是,你常常根本不用碰权重。你修的是工具、提示词、重试逻辑、模型运行其中的那层脚手架。这更便宜、更快,而且可以在部署之后、用你自己的数据来做。
代码在github.com/wbopan/retro-harness,论文在arxiv.org/abs/2606.05922。如果你在生产环境跑agent,这个用自我偏好挑rollout的招值得偷。
评论