2026年5月16日Research Benchmark Agents

评判 Agent 的新方法，连前沿模型当裁判都被它甩开

Holistic Evaluation and Failure Diagnosis of AI Agents 5月14号上 arXiv（2605.14865）。十五个作者。这篇拆掉了用单体 LLM 当裁判去评估 Agent 运行的常规打法，提出一个把 trace 拆成 span 级判断、每个判断都带显式理由的框架。最终结论不是 pass/fail，而是失败发生在哪儿、为什么发生。

数字够响。Category F1 相对单体 baseline 提升最高 38%。定位精度提升 3.5 倍——也就是这个框架找到出问题那一段的命中率，是把前沿模型当扁平裁判用时的 3.5 倍。定位加分类联合精度提升 12.5 倍。在 GAIA 和 SWE-Bench 评估上拿到 SOTA。论文反复强调的关键发现：同一个前沿模型，放在这个框架里用，比当单体裁判用，定位精度高好几倍。瓶颈是方法论，不是模型能力。

为什么这事值得看：Agent 评估一直是整个 Agent 技术栈里最慢动的那一环。大家拿 GAIA 或 SWE-Bench 训 Agent，再拿前沿模型当裁判去评，然后抱怨裁判不可靠。如果这个方法能泛化，Agent 开发循环里就能拿到一个明显更尖锐的反馈信号，模型都不用换。它和上周 Judgment Labs 融资、AgentRail 上线在结构上是同一波：Agent 可观测栈在和 Agent 能力本身并行成熟。

论文在 arxiv.org/abs/2605.14865。摘要里没放 GitHub。

← 上一篇

Orthrus 让 Qwen3 推理快 5 倍，输出一字不差

LEMON 不配置编排器，直接训出来

← 返回所有文章

加载中...

评判 Agent 的新方法，连前沿模型当裁判都被它甩开

更多文章

评论