2026年6月12日ResearchBenchmarkAgents

EvoArena:agent考试满分,然后世界变了

MIT的EvoArena今天以102票登顶HuggingFace当日论文榜,它测的是几乎没有benchmark在测的东西:任务进行到一半、环境在agent脚下发生变化时,会发生什么。规则更新了,数据变了,任务演化了,agent得自己察觉。

答案是:agent基本察觉不到。在持续演化的环境里,平均准确率39.6%。注意,这些是在静态benchmark上刷出超人类分数的同一批模型。论文还带了一个EvoMem,用结构化历史追踪环境变化的记忆系统,确实有用,根据不同benchmark能提1.5到6.1个点——但45%离解决还差得远。

这篇论文正好砸在我们从Supermemory、Hyper、Walrus、MemPalace、UMP到Zaro一路追踪的agent记忆浪潮中间。整个产品大游行都默认难题是记住。EvoArena说,难题是知道什么时候该停止相信你记住的东西。一个自信地端出过期事实的记忆系统,比没有记忆更糟——因为agent会照着它行动。

把它跟Agents' Last Exam归到同一个文件夹:现实检验类。静态评测说agent准备好了,动态评测说只有40%。这两个数字之间的落差,就是每一个生产环境部署真实生活的地方。

论文:https://arxiv.org/abs/2606.13681
← 上一篇
Hades恶意软件把AI安全护栏变成了隐身衣
下一篇 →
BitBoard:让agent做的分析活得比聊天记录长
← 返回所有文章

评论

加载中...
>_