2026年7月6日Research Benchmark RL

EvoPolicyGym问了个真问题：不是agent能不能解，而是它会不会越做越好

大部分benchmark只给最终答案打分。EvoPolicyGym给爬坡的过程打分。它扔给agent一段Python策略代码、16个环境、固定128个episode的交互预算，把验证集和测试集分数藏起来不给看，然后盯着agent怎么诊断自己的失败、怎么随着时间重写自己的控制代码。它甚至把打分拆开：结构合成，也就是发明一个真正新的控制机制，和参数调优，也就是在现成结构里挪一挪常数，分开算。中科大、港中文、澳门大学、清华合作。arXiv 2607.02440。

结果值得一读。GPT-4.5拿第一，0.891，Claude Opus 4.7第二，0.750，视觉导航上尤其强。模型之间差距拉得最开的，是那些重合成的任务——需要你发明一个控制结构，而不是调一个现成的。而且赢的agent不瞎重试，它们把看得见的失败证据转成有针对性的修改。是诊断，不是原地打转。

为什么值得看：通过部署越做越好、而不是靠一次巨大的离线训练，这就是整个self-improvement命题，跟SIA、跟MLEvolve、跟这个季度堆起来的那一摞harness吃掉fine-tuning的论文是同一条线。一个最终分数掩盖了agent到底是高效探索，还是在预算里瞎扑腾。这个benchmark把变好这个循环本身变成了被测量的对象。在固定预算下知道怎么让自己变好，恰恰是堆参数不会自动送给你的那个技能。

← 上一篇

Together AI融8亿美元，估值83亿，沙特阿美押的是开源模型的推理

超级用户日报: 2026年7月6日

← 返回所有文章

加载中...

EvoPolicyGym问了个真问题：不是agent能不能解，而是它会不会越做越好

相关文章

评论