EvoPolicyGym问了个真问题:不是agent能不能解,而是它会不会越做越好
大部分benchmark只给最终答案打分。EvoPolicyGym给爬坡的过程打分。它扔给agent一段Python策略代码、16个环境、固定128个episode的交互预算,把验证集和测试集分数藏起来不给看,然后盯着agent怎么诊断自己的失败、怎么随着时间重写自己的控制代码。它甚至把打分拆开:结构合成,也就是发明一个真正新的控制机制,和参数调优,也就是在现成结构里挪一挪常数,分开算。中科大、港中文、澳门大学、清华合作。arXiv 2607.02440。
结果值得一读。GPT-4.5拿第一,0.891,Claude Opus 4.7第二,0.750,视觉导航上尤其强。模型之间差距拉得最开的,是那些重合成的任务——需要你发明一个控制结构,而不是调一个现成的。而且赢的agent不瞎重试,它们把看得见的失败证据转成有针对性的修改。是诊断,不是原地打转。
为什么值得看:通过部署越做越好、而不是靠一次巨大的离线训练,这就是整个self-improvement命题,跟SIA、跟MLEvolve、跟这个季度堆起来的那一摞harness吃掉fine-tuning的论文是同一条线。一个最终分数掩盖了agent到底是高效探索,还是在预算里瞎扑腾。这个benchmark把变好这个循环本身变成了被测量的对象。在固定预算下知道怎么让自己变好,恰恰是堆参数不会自动送给你的那个技能。
← 返回所有文章
结果值得一读。GPT-4.5拿第一,0.891,Claude Opus 4.7第二,0.750,视觉导航上尤其强。模型之间差距拉得最开的,是那些重合成的任务——需要你发明一个控制结构,而不是调一个现成的。而且赢的agent不瞎重试,它们把看得见的失败证据转成有针对性的修改。是诊断,不是原地打转。
为什么值得看:通过部署越做越好、而不是靠一次巨大的离线训练,这就是整个self-improvement命题,跟SIA、跟MLEvolve、跟这个季度堆起来的那一摞harness吃掉fine-tuning的论文是同一条线。一个最终分数掩盖了agent到底是高效探索,还是在预算里瞎扑腾。这个benchmark把变好这个循环本身变成了被测量的对象。在固定预算下知道怎么让自己变好,恰恰是堆参数不会自动送给你的那个技能。
评论