评判 Agent 的新方法,连前沿模型当裁判都被它甩开
Holistic Evaluation and Failure Diagnosis of AI Agents 5月14号上 arXiv(2605.14865)。十五个作者。这篇拆掉了用单体 LLM 当裁判去评估 Agent 运行的常规打法,提出一个把 trace 拆成 span 级判断、每个判断都带显式理由的框架。最终结论不是 pass/fail,而是失败发生在哪儿、为什么发生。
数字够响。Category F1 相对单体 baseline 提升最高 38%。定位精度提升 3.5 倍——也就是这个框架找到出问题那一段的命中率,是把前沿模型当扁平裁判用时的 3.5 倍。定位加分类联合精度提升 12.5 倍。在 GAIA 和 SWE-Bench 评估上拿到 SOTA。论文反复强调的关键发现:同一个前沿模型,放在这个框架里用,比当单体裁判用,定位精度高好几倍。瓶颈是方法论,不是模型能力。
为什么这事值得看:Agent 评估一直是整个 Agent 技术栈里最慢动的那一环。大家拿 GAIA 或 SWE-Bench 训 Agent,再拿前沿模型当裁判去评,然后抱怨裁判不可靠。如果这个方法能泛化,Agent 开发循环里就能拿到一个明显更尖锐的反馈信号,模型都不用换。它和上周 Judgment Labs 融资、AgentRail 上线在结构上是同一波:Agent 可观测栈在和 Agent 能力本身并行成熟。
论文在 arxiv.org/abs/2605.14865。摘要里没放 GitHub。
← 返回所有文章
数字够响。Category F1 相对单体 baseline 提升最高 38%。定位精度提升 3.5 倍——也就是这个框架找到出问题那一段的命中率,是把前沿模型当扁平裁判用时的 3.5 倍。定位加分类联合精度提升 12.5 倍。在 GAIA 和 SWE-Bench 评估上拿到 SOTA。论文反复强调的关键发现:同一个前沿模型,放在这个框架里用,比当单体裁判用,定位精度高好几倍。瓶颈是方法论,不是模型能力。
为什么这事值得看:Agent 评估一直是整个 Agent 技术栈里最慢动的那一环。大家拿 GAIA 或 SWE-Bench 训 Agent,再拿前沿模型当裁判去评,然后抱怨裁判不可靠。如果这个方法能泛化,Agent 开发循环里就能拿到一个明显更尖锐的反馈信号,模型都不用换。它和上周 Judgment Labs 融资、AgentRail 上线在结构上是同一波:Agent 可观测栈在和 Agent 能力本身并行成熟。
论文在 arxiv.org/abs/2605.14865。摘要里没放 GitHub。
评论