2026年6月5日Research Agents Benchmark

一篇论文告诉你 research agent 到底错在哪一步

今天霸榜 HuggingFace 每日论文的，是南京大学 NJU-LINK Lab 一篇看着平淡、其实很实用的工作。它问的问题是：当一个 deep-research agent 给了你错误答案，知道它错了没有任何用，你得知道它错在哪。

做法是对 agent 轨迹做 span 级别的错误定位。不是把一整段多步运行简单标成对或错，而是把轨迹切成片段，精确指出错误最早是从哪一段钻进来的。是 agent 在第三步拉了个烂来源，还是它来源拉对了、读也读对了，结果四步之后推理推歪了？这是完全不同的两种 bug，而今天大多数评测根本分不清。

这件事比听起来重要，44 个赞也说明社区是认的。随着 agent 跑的轨迹越来越长，传统的 debug 方式，也就是人肉把整段记录从头读一遍，根本扛不住。span 级别的归因，本质上就是给 agent 失败做了个 diff 视图。它直接把你的视线钉在出问题的那一行，而不是逼你读完整本小说。

如果你在做或者在评测 research agent，这种不起眼的工具性工作，恰恰是悄悄抬高所有人天花板的那一类。论文地址：https://arxiv.org/abs/2606.02060

← 上一篇

GitHub 把 Copilot 做成了一行库调用

Walrus Memory: 让 agent 带着记忆跨 app 跑

← 返回所有文章

加载中...

一篇论文告诉你 research agent 到底错在哪一步

相关文章

评论