2026年4月23日Research Agents RL

DR-Venus：4B参数+1万条数据的研究Agent，打到了30B的水平

DR-Venus 4月21日挂arXiv，一天后冲到HuggingFace当日Agent论文第一。标题就是规模。一个40亿参数的深度研究Agent，用大约1万条开源数据训练，多步研究任务上显著超过之前所有9B以下的Agent模型，逼近30B系统水平。

配方两阶段。第一步agentic SFT让模型可靠地用browse/search/read工具。第二步长horizon奖励的强化学习，打磨它在长研究链上的稳定性。值得注意的不是哪一项单独的技术，是组合加数据效率。别人训Agent都是囤几千万条专有轨迹。DR-Venus只用了一万条。

编辑判断是：dense-research-agent这个类别刚变便宜了很多。任何人只要有一个4B基础模型、一点算力、还有点品味，都能在几周内复现一个像样的深度研究Agent。参与门槛变了。在此之前这档Agent要么在OpenAI Deep Research里，要么在一个完整的研究实验室里。DR-Venus证明了一个研究组或种子期创业公司，只要数据干净，就能到差不多的地方。

如果Venus团队真的按承诺放出模型、代码和recipe，这就是本季度最可复现的Agent训练故事之一。未来两周盯HuggingFace。这个benchmark要打败的名字列表，一下变短了。

https://arxiv.org/abs/2604.19859

← 上一篇

Agent Context：修掉所有AI写代码都犯的那个蠢错误

GitHub 每日之星 — 2026年04月23日

← 返回所有文章

加载中...

DR-Venus：4B参数+1万条数据的研究Agent，打到了30B的水平

相关文章

评论