2026年4月29日Agents Benchmark Research

AutoResearchBench：最强 Agent 找论文准确率 9%

AutoResearchBench 4 月 28 日上 arXiv，给所有 research agent 厂商抛了张挺难看的成绩单。两个任务：Deep Research，agent 要通过多步调查找到一篇具体的目标论文；Wide Research，要把符合某条件的论文全捞出来。最强前沿大模型 Deep Research 准确率 9.39%，Wide Research IoU 9.31%。一堆强 baseline 还在 5% 以下。

对比一下，同样这些模型在 BrowseComp 这种通用网页浏览 benchmark 上分数高得多。科学文献是真把它们打回原形了。论文长、术语密、引用绕、还得真的懂某个方法在干啥、跟当前问题有没有关系。benchmark 明确说自己是 research-oriented：不是查到再引一下就完事，而是必须深入理解科学概念。

要说的就一件事。Twitter 上你看到的那些 autoresearch 演示，绝大多数任务是点几下搜索、读几个摘要就能答出来的。真正的科研从那以后才开始。AutoResearchBench 给整个赛道扎了一根针：你下次再说自己 agent 能做 PhD 级文献调研，先在这上面跑一轮再说，别着急把瓶颈推给别的环节。

benchmark 已经在 GitHub 上开源。9% 这个数字是新鲜出炉的。下个季度看哪些 research agent 公司敢报这个数字，哪些会悄悄绕开。

链接 https://arxiv.org/abs/2604.25256 https://github.com/CherYou/AutoResearchBench

← 上一篇

斯坦福把多 Agent 系统当一个模型来训

SkillSynth 用技能图来批量造终端任务

← 返回所有文章

加载中...

AutoResearchBench：最强 Agent 找论文准确率 9%

相关文章

评论