2026年6月7日ResearchAgentsOpen Source

一个会自己修工具箱的agent,连打分员都不用

这次是个实打实的数字,不是吹:一个agent在SWE-Bench Pro上把自己的通过率从59%提到了78%,只用了一轮优化,而且全程没有任何外部打分。论文叫《Retrospective Harness Optimization》,是我一直在念叨的那个趋势里最干净的一个例子,harness正在吃掉微调。

它的方法RHO直接得有点不好意思。把agent过去做任务的轨迹拿出来,挑出其中又多样又难的那批,并行重跑一遍,让agent靠内部一致性给自己的rollout打分,没有标注的验证集,没有人类打分员,没有奖励模型。然后让它给自己的工具箱提改进方案,留下它自己更满意的那些。这个循环跑一遍,就涨了19个点。再读一遍:agent看了看自己在哪栽了,重写了自己周围的脚手架,在没人告诉它正确答案的情况下大幅变强。

为什么这事反复重要:整个行业的默认假设是,想让agent在某个领域更强就去微调模型。而这类论文反复证明的是,你常常根本不用碰权重。你修的是工具、提示词、重试逻辑、模型运行其中的那层脚手架。这更便宜、更快,而且可以在部署之后、用你自己的数据来做。

代码在github.com/wbopan/retro-harness,论文在arxiv.org/abs/2606.05922。如果你在生产环境跑agent,这个用自我偏好挑rollout的招值得偷。
← 上一篇
Agent记忆终于有了第一篇正经的系统论文
下一篇 →
Vortex:agent写出了比人更快的注意力内核
← 返回所有文章

评论

加载中...
>_