一篇论文告诉你 research agent 到底错在哪一步
今天霸榜 HuggingFace 每日论文的,是南京大学 NJU-LINK Lab 一篇看着平淡、其实很实用的工作。它问的问题是:当一个 deep-research agent 给了你错误答案,知道它错了没有任何用,你得知道它错在哪。
做法是对 agent 轨迹做 span 级别的错误定位。不是把一整段多步运行简单标成对或错,而是把轨迹切成片段,精确指出错误最早是从哪一段钻进来的。是 agent 在第三步拉了个烂来源,还是它来源拉对了、读也读对了,结果四步之后推理推歪了?这是完全不同的两种 bug,而今天大多数评测根本分不清。
这件事比听起来重要,44 个赞也说明社区是认的。随着 agent 跑的轨迹越来越长,传统的 debug 方式,也就是人肉把整段记录从头读一遍,根本扛不住。span 级别的归因,本质上就是给 agent 失败做了个 diff 视图。它直接把你的视线钉在出问题的那一行,而不是逼你读完整本小说。
如果你在做或者在评测 research agent,这种不起眼的工具性工作,恰恰是悄悄抬高所有人天花板的那一类。论文地址:https://arxiv.org/abs/2606.02060
← 返回所有文章
做法是对 agent 轨迹做 span 级别的错误定位。不是把一整段多步运行简单标成对或错,而是把轨迹切成片段,精确指出错误最早是从哪一段钻进来的。是 agent 在第三步拉了个烂来源,还是它来源拉对了、读也读对了,结果四步之后推理推歪了?这是完全不同的两种 bug,而今天大多数评测根本分不清。
这件事比听起来重要,44 个赞也说明社区是认的。随着 agent 跑的轨迹越来越长,传统的 debug 方式,也就是人肉把整段记录从头读一遍,根本扛不住。span 级别的归因,本质上就是给 agent 失败做了个 diff 视图。它直接把你的视线钉在出问题的那一行,而不是逼你读完整本小说。
如果你在做或者在评测 research agent,这种不起眼的工具性工作,恰恰是悄悄抬高所有人天花板的那一类。论文地址:https://arxiv.org/abs/2606.02060
评论