2026年5月26日ResearchAgentsRL

QUEST 用 8000 个编出来的任务,训出一个前沿研究 agent

一个深度研究 agent 的训练数据从哪来?你没法从网上爬到优质的多步研究,它根本不以标注数据的形式存在。QUEST 这个新开源的工作,团队里有俄亥俄州立的 Yu Su 和 Huan Sun,他们说你不需要爬,你可以造。

QUEST 是一组开源模型,从 2B 到 35B,做的是通用深度研究 agent,就是那种跑长链多步搜索、核实事实、追引用、最后写出一份真正报告的东西。诀窍在数据。他们搭了一个合成流水线,基于他们叫做统一评分树的东西:生成的研究任务自带可测量的奖励,全程不要人工标注。然后在上面做 mid-training、微调和强化学习。

有个数字你该停一下:8000 个合成任务。整个预算就这些。在八个深度研究 benchmark 上,这些模型逼近甚至打败了专有的前沿系统,在开源权重的竞争者里是最强的。八千个假任务,权重和代码全开,打平那些在人工标注上砸重金的闭源大厂。

这正是所有人一直在绕的那个循环。如果一个 agent 能自己生成带可验证奖励的训练任务,那个卡住前沿能力的数据瓶颈就开始松动了。贵的从来不是算力,是标注好的样本。QUEST 干净利落地证明了,对研究类 agent 来说,这些样本你直接打印就行。

论文:arxiv.org/abs/2605.24218
← 上一篇
Stop-Slop:一个当场抓住 AI 写作的 skill
下一篇 →
一篇新论文说,语言模型需要睡觉,字面意义上的
← 返回所有文章

评论

加载中...
>_