2026年4月29日AgentsBenchmarkResearch

AutoResearchBench:最强 Agent 找论文准确率 9%

AutoResearchBench 4 月 28 日上 arXiv,给所有 research agent 厂商抛了张挺难看的成绩单。两个任务:Deep Research,agent 要通过多步调查找到一篇具体的目标论文;Wide Research,要把符合某条件的论文全捞出来。最强前沿大模型 Deep Research 准确率 9.39%,Wide Research IoU 9.31%。一堆强 baseline 还在 5% 以下。

对比一下,同样这些模型在 BrowseComp 这种通用网页浏览 benchmark 上分数高得多。科学文献是真把它们打回原形了。论文长、术语密、引用绕、还得真的懂某个方法在干啥、跟当前问题有没有关系。benchmark 明确说自己是 research-oriented:不是查到再引一下就完事,而是必须深入理解科学概念。

要说的就一件事。Twitter 上你看到的那些 autoresearch 演示,绝大多数任务是点几下搜索、读几个摘要就能答出来的。真正的科研从那以后才开始。AutoResearchBench 给整个赛道扎了一根针:你下次再说自己 agent 能做 PhD 级文献调研,先在这上面跑一轮再说,别着急把瓶颈推给别的环节。

benchmark 已经在 GitHub 上开源。9% 这个数字是新鲜出炉的。下个季度看哪些 research agent 公司敢报这个数字,哪些会悄悄绕开。

链接 https://arxiv.org/abs/2604.25256 https://github.com/CherYou/AutoResearchBench
← 上一篇
斯坦福把多 Agent 系统当一个模型来训
下一篇 →
SkillSynth 用技能图来批量造终端任务
← 返回所有文章

评论

加载中...
>_