2026年6月19日ResearchBenchmark

agent霸榜的那些榜,预测不了它们会干砸的活

IBM牵头、七十多位作者署名的一篇新论文抛了个让人不舒服的论点:我们用来给AI agent排名的那些榜,大多预测不了它们在真实世界里的表现。他们把缺失的那个性质叫预测效度,在公开榜上赢,到底跟在你没见过的数据上赢相不相关?答案常常是:不相关。

数字很直白。在一场149支队伍的agent比赛里,公开测试和隐藏测试的排名相关性,在执行赛道上是rho=-0.13。负的。在公开榜上拔尖,跟在隐藏榜上表现好,甚至还略微反着来。而所有人都依赖的那个LLM裁判,Krippendorff's alpha只有0.61,远低于人类在同一批样本上的0.74到0.82,这个裁判跟自己的意见分歧,比人和人之间还大。

这正好砸在两周前那篇Agents' Last Exam上,那篇里最强的agent只通过了26%的真实经济任务。同一个伤口,捅得更深:问题不只是agent干不好真活,而是我们鼓掌叫好的那些计分板,根本告诉不了我们哪个agent能干好。聚合分数把成本、延迟、规划质量、推理全压成一个数字,而这个数字一遇到分布偏移就开始撒谎。

他们的解法是一套十二层的评估框架,外加强制提交元数据,架构类型、推理模式、检索策略、验证器类型,让一个分数变得可归因,而不只是好看。这是一篇立场论文,挂在公开的AssetOpsBench上,不是产品。但如果你在买agent或者在出agent,这是你这周最该读的东西,因为它告诉你:那个被拿来当头条的榜单分数,恰恰是整个宣传里最不可信的部分。arXiv 2606.19704。
← 上一篇
Builder.io想让agent成为你应用的正式用户
下一篇 →
超级用户日报: 2026年6月20日
← 返回所有文章

评论

加载中...
>_