2026年6月6日Research Benchmark Agents

AdaPlanBench: 任务中途改规则，agent 就不会重新规划了

我们测试规划型 agent 的方式，藏着一个不声不响的漏洞。大多数 benchmark 是把所有约束一开始就全摆给 agent，让它做个计划，然后给计划打分。可现实不是这么运作的。你开始做饭，做着做着发现少了样食材。本周新出的 AdaPlanBench 测的正是这个：当约束在 agent 已经下决定之后才暴露出来，它能不能重新规划。

设计很巧。它建在 307 个家务任务上，每个都加了一对隐藏约束。agent 在多轮交互里和环境打交道，而某个隐藏约束只有在 agent 提出的计划违反了它时才会冒出来。所以 agent 得意识到自己刚违反了一条它根本不知道存在的规则，然后修正，再修正，随着反馈不断累积一遍遍来。这比一次性规划要狠得多，也真实得多。

结果挺让人清醒。十个主流大模型里，最强的也只到 67.75% 的准确率，而且随着约束累积，表现一路下滑。agent 最吃力的是用户约束，失败的根子追到物理世界理解太弱，模型并不真正懂它正在其中行动的那个世界。这种发现，应该让任何在做长程 agent 的人捏把汗。

结论很直白。静态规划 benchmark 一直在给我们的 agent 戴高帽。一旦你让环境在任务中途抛出意外，就像真实世界永远会做的那样，分数就跳崖了。在不断累积的约束下做自适应重规划，是个尚未解决的问题，而现在终于有了一把干净的尺子去量它。https://arxiv.org/abs/2606.05622

← 上一篇

Google 把 Gemma 4 压进手机，还没压坏

Agent Browser Shield: 在 agent 和网页陷阱之间加一道滤网

← 返回所有文章

加载中...

AdaPlanBench: 任务中途改规则，agent 就不会重新规划了

相关文章

评论