2026年6月4日ResearchAgentsBenchmark

一篇论文告诉你 research agent 到底错在哪一步

今天霸榜 HuggingFace 每日论文的,是南京大学 NJU-LINK Lab 一篇看着平淡、其实很实用的工作。它问的问题是:当一个 deep-research agent 给了你错误答案,知道它错了没有任何用,你得知道它错在哪。

做法是对 agent 轨迹做 span 级别的错误定位。不是把一整段多步运行简单标成对或错,而是把轨迹切成片段,精确指出错误最早是从哪一段钻进来的。是 agent 在第三步拉了个烂来源,还是它来源拉对了、读也读对了,结果四步之后推理推歪了?这是完全不同的两种 bug,而今天大多数评测根本分不清。

这件事比听起来重要,44 个赞也说明社区是认的。随着 agent 跑的轨迹越来越长,传统的 debug 方式,也就是人肉把整段记录从头读一遍,根本扛不住。span 级别的归因,本质上就是给 agent 失败做了个 diff 视图。它直接把你的视线钉在出问题的那一行,而不是逼你读完整本小说。

如果你在做或者在评测 research agent,这种不起眼的工具性工作,恰恰是悄悄抬高所有人天花板的那一类。论文地址:https://arxiv.org/abs/2606.02060
← 上一篇
GitHub 把 Copilot 做成了一行库调用
下一篇 →
Walrus Memory: 让 agent 带着记忆跨 app 跑
← 返回所有文章

评论

加载中...
>_