2026年6月19日Research Benchmark

agent霸榜的那些榜，预测不了它们会干砸的活

IBM牵头、七十多位作者署名的一篇新论文抛了个让人不舒服的论点：我们用来给AI agent排名的那些榜，大多预测不了它们在真实世界里的表现。他们把缺失的那个性质叫预测效度，在公开榜上赢，到底跟在你没见过的数据上赢相不相关？答案常常是：不相关。

数字很直白。在一场149支队伍的agent比赛里，公开测试和隐藏测试的排名相关性，在执行赛道上是rho=-0.13。负的。在公开榜上拔尖，跟在隐藏榜上表现好，甚至还略微反着来。而所有人都依赖的那个LLM裁判，Krippendorff's alpha只有0.61，远低于人类在同一批样本上的0.74到0.82，这个裁判跟自己的意见分歧，比人和人之间还大。

这正好砸在两周前那篇Agents' Last Exam上，那篇里最强的agent只通过了26%的真实经济任务。同一个伤口，捅得更深：问题不只是agent干不好真活，而是我们鼓掌叫好的那些计分板，根本告诉不了我们哪个agent能干好。聚合分数把成本、延迟、规划质量、推理全压成一个数字，而这个数字一遇到分布偏移就开始撒谎。

他们的解法是一套十二层的评估框架，外加强制提交元数据，架构类型、推理模式、检索策略、验证器类型，让一个分数变得可归因，而不只是好看。这是一篇立场论文，挂在公开的AssetOpsBench上，不是产品。但如果你在买agent或者在出agent，这是你这周最该读的东西，因为它告诉你：那个被拿来当头条的榜单分数，恰恰是整个宣传里最不可信的部分。arXiv 2606.19704。

← 上一篇

Builder.io想让agent成为你应用的正式用户

超级用户日报: 2026年6月20日

← 返回所有文章

加载中...

agent霸榜的那些榜，预测不了它们会干砸的活

相关文章

评论