OpenSeeker:首个完全开源训练数据的搜索代理
OpenSeeker 是首个在前沿搜索基准测试上达到最先进性能,同时完全开源整个训练管线和数据的学术项目。该论文在 HuggingFace 每日论文上获得104票赞。
该团队仅使用11,700个训练样本对 Qwen3-30B-A3B-Thinking 进行微调,便取得了超越工业竞争对手的结果——包括在 BrowseComp-ZH 上超过通义深度研究(48.4% vs 46.7%)。项目完全开源了合成管线、高保真训练数据和模型权重。
OpenSeeker 解决了搜索代理领域的一个关键缺口:虽然商业搜索代理(如 Perplexity、Google Deep Research、通义深度研究)已取得出色成果,但它们的训练数据和方法仍然是专有的。OpenSeeker 通过提供完整配方来实现这一能力的民主化。
对代理生态系统而言,这意义重大——搜索是最基础的代理能力之一。完全开源训练管线意味着任何团队现在都可以在没有专有数据的情况下构建有竞争力的搜索代理。
GitHub:https://github.com/rui-ye/OpenSeeker
论文:https://arxiv.org/abs/2603.15594
← 返回所有文章
该团队仅使用11,700个训练样本对 Qwen3-30B-A3B-Thinking 进行微调,便取得了超越工业竞争对手的结果——包括在 BrowseComp-ZH 上超过通义深度研究(48.4% vs 46.7%)。项目完全开源了合成管线、高保真训练数据和模型权重。
OpenSeeker 解决了搜索代理领域的一个关键缺口:虽然商业搜索代理(如 Perplexity、Google Deep Research、通义深度研究)已取得出色成果,但它们的训练数据和方法仍然是专有的。OpenSeeker 通过提供完整配方来实现这一能力的民主化。
对代理生态系统而言,这意义重大——搜索是最基础的代理能力之一。完全开源训练管线意味着任何团队现在都可以在没有专有数据的情况下构建有竞争力的搜索代理。
GitHub:https://github.com/rui-ye/OpenSeeker
论文:https://arxiv.org/abs/2603.15594