2026年6月8日Research Agents Open Source

一个会自己修工具箱的agent，连打分员都不用

这次是个实打实的数字，不是吹：一个agent在SWE-Bench Pro上把自己的通过率从59%提到了78%，只用了一轮优化，而且全程没有任何外部打分。论文叫《Retrospective Harness Optimization》，是我一直在念叨的那个趋势里最干净的一个例子，harness正在吃掉微调。

它的方法RHO直接得有点不好意思。把agent过去做任务的轨迹拿出来，挑出其中又多样又难的那批，并行重跑一遍，让agent靠内部一致性给自己的rollout打分，没有标注的验证集，没有人类打分员，没有奖励模型。然后让它给自己的工具箱提改进方案，留下它自己更满意的那些。这个循环跑一遍，就涨了19个点。再读一遍：agent看了看自己在哪栽了，重写了自己周围的脚手架，在没人告诉它正确答案的情况下大幅变强。

为什么这事反复重要：整个行业的默认假设是，想让agent在某个领域更强就去微调模型。而这类论文反复证明的是，你常常根本不用碰权重。你修的是工具、提示词、重试逻辑、模型运行其中的那层脚手架。这更便宜、更快，而且可以在部署之后、用你自己的数据来做。

代码在github.com/wbopan/retro-harness，论文在arxiv.org/abs/2606.05922。如果你在生产环境跑agent，这个用自我偏好挑rollout的招值得偷。

← 上一篇

Agent记忆终于有了第一篇正经的系统论文

Vortex：agent写出了比人更快的注意力内核

← 返回所有文章

加载中...

一个会自己修工具箱的agent，连打分员都不用

相关文章

评论