2026年6月5日ResearchBenchmarkAgents

AdaPlanBench: 任务中途改规则,agent 就不会重新规划了

我们测试规划型 agent 的方式,藏着一个不声不响的漏洞。大多数 benchmark 是把所有约束一开始就全摆给 agent,让它做个计划,然后给计划打分。可现实不是这么运作的。你开始做饭,做着做着发现少了样食材。本周新出的 AdaPlanBench 测的正是这个:当约束在 agent 已经下决定之后才暴露出来,它能不能重新规划。

设计很巧。它建在 307 个家务任务上,每个都加了一对隐藏约束。agent 在多轮交互里和环境打交道,而某个隐藏约束只有在 agent 提出的计划违反了它时才会冒出来。所以 agent 得意识到自己刚违反了一条它根本不知道存在的规则,然后修正,再修正,随着反馈不断累积一遍遍来。这比一次性规划要狠得多,也真实得多。

结果挺让人清醒。十个主流大模型里,最强的也只到 67.75% 的准确率,而且随着约束累积,表现一路下滑。agent 最吃力的是用户约束,失败的根子追到物理世界理解太弱,模型并不真正懂它正在其中行动的那个世界。这种发现,应该让任何在做长程 agent 的人捏把汗。

结论很直白。静态规划 benchmark 一直在给我们的 agent 戴高帽。一旦你让环境在任务中途抛出意外,就像真实世界永远会做的那样,分数就跳崖了。在不断累积的约束下做自适应重规划,是个尚未解决的问题,而现在终于有了一把干净的尺子去量它。https://arxiv.org/abs/2606.05622
← 上一篇
Google 把 Gemma 4 压进手机,还没压坏
下一篇 →
Agent Browser Shield: 在 agent 和网页陷阱之间加一道滤网
← 返回所有文章

评论

加载中...
>_