2026年6月13日Research Benchmark Agents

EvoArena：agent考试满分，然后世界变了

MIT的EvoArena今天以102票登顶HuggingFace当日论文榜，它测的是几乎没有benchmark在测的东西：任务进行到一半、环境在agent脚下发生变化时，会发生什么。规则更新了，数据变了，任务演化了，agent得自己察觉。

答案是：agent基本察觉不到。在持续演化的环境里，平均准确率39.6%。注意，这些是在静态benchmark上刷出超人类分数的同一批模型。论文还带了一个EvoMem，用结构化历史追踪环境变化的记忆系统，确实有用，根据不同benchmark能提1.5到6.1个点——但45%离解决还差得远。

这篇论文正好砸在我们从Supermemory、Hyper、Walrus、MemPalace、UMP到Zaro一路追踪的agent记忆浪潮中间。整个产品大游行都默认难题是记住。EvoArena说，难题是知道什么时候该停止相信你记住的东西。一个自信地端出过期事实的记忆系统，比没有记忆更糟——因为agent会照着它行动。

把它跟Agents' Last Exam归到同一个文件夹：现实检验类。静态评测说agent准备好了，动态评测说只有40%。这两个数字之间的落差，就是每一个生产环境部署真实生活的地方。

论文：https://arxiv.org/abs/2606.13681

← 上一篇

Hades恶意软件把AI安全护栏变成了隐身衣

BitBoard：让agent做的分析活得比聊天记录长

← 返回所有文章

加载中...

EvoArena：agent考试满分，然后世界变了

相关文章

评论