2026年5月27日Research Agents RL

QUEST 用 8000 个编出来的任务，训出一个前沿研究 agent

一个深度研究 agent 的训练数据从哪来？你没法从网上爬到优质的多步研究，它根本不以标注数据的形式存在。QUEST 这个新开源的工作，团队里有俄亥俄州立的 Yu Su 和 Huan Sun，他们说你不需要爬，你可以造。

QUEST 是一组开源模型，从 2B 到 35B，做的是通用深度研究 agent，就是那种跑长链多步搜索、核实事实、追引用、最后写出一份真正报告的东西。诀窍在数据。他们搭了一个合成流水线，基于他们叫做统一评分树的东西：生成的研究任务自带可测量的奖励，全程不要人工标注。然后在上面做 mid-training、微调和强化学习。

有个数字你该停一下：8000 个合成任务。整个预算就这些。在八个深度研究 benchmark 上，这些模型逼近甚至打败了专有的前沿系统，在开源权重的竞争者里是最强的。八千个假任务，权重和代码全开，打平那些在人工标注上砸重金的闭源大厂。

这正是所有人一直在绕的那个循环。如果一个 agent 能自己生成带可验证奖励的训练任务，那个卡住前沿能力的数据瓶颈就开始松动了。贵的从来不是算力，是标注好的样本。QUEST 干净利落地证明了，对研究类 agent 来说，这些样本你直接打印就行。

论文：arxiv.org/abs/2605.24218

← 上一篇

Stop-Slop：一个当场抓住 AI 写作的 skill

一篇新论文说，语言模型需要睡觉，字面意义上的

← 返回所有文章

加载中...

QUEST 用 8000 个编出来的任务，训出一个前沿研究 agent

相关文章

评论