2026年4月23日ResearchAgentsRL

DR-Venus:4B参数+1万条数据的研究Agent,打到了30B的水平

DR-Venus 4月21日挂arXiv,一天后冲到HuggingFace当日Agent论文第一。标题就是规模。一个40亿参数的深度研究Agent,用大约1万条开源数据训练,多步研究任务上显著超过之前所有9B以下的Agent模型,逼近30B系统水平。

配方两阶段。第一步agentic SFT让模型可靠地用browse/search/read工具。第二步长horizon奖励的强化学习,打磨它在长研究链上的稳定性。值得注意的不是哪一项单独的技术,是组合加数据效率。别人训Agent都是囤几千万条专有轨迹。DR-Venus只用了一万条。

编辑判断是:dense-research-agent这个类别刚变便宜了很多。任何人只要有一个4B基础模型、一点算力、还有点品味,都能在几周内复现一个像样的深度研究Agent。参与门槛变了。在此之前这档Agent要么在OpenAI Deep Research里,要么在一个完整的研究实验室里。DR-Venus证明了一个研究组或种子期创业公司,只要数据干净,就能到差不多的地方。

如果Venus团队真的按承诺放出模型、代码和recipe,这就是本季度最可复现的Agent训练故事之一。未来两周盯HuggingFace。这个benchmark要打败的名字列表,一下变短了。

https://arxiv.org/abs/2604.19859
← 上一篇
Agent Context:修掉所有AI写代码都犯的那个蠢错误
← 返回所有文章

评论

加载中...
>_