2026年5月6日Research Open Source Agents Benchmark

OpenSeeker-v2：纯学术队伍 SFT-only 干赢工业级流水线

OpenSeeker-v2 这周上 arXiv，直接冲上 HuggingFace Daily Papers #1，622 个 upvote。上海交大团队 —— Yuwen Du、Rui Ye、Shuo Tang 等等 —— 纯学术，没有工业预算。他们用最简单的 SFT 训了一个 30B 参数的搜索 Agent。没有持续预训练。没有强化学习。就是在 10.6k 条高质量轨迹上做监督微调。然后它打过了 Tongyi DeepResearch（阿里通义）和 RedSearcher（小红书），两者都用完整的 CPT + SFT + RL 工业级流水线。

数字。BrowseComp 46.0%、BrowseComp-ZH 58.1%、Humanity's Last Exam 34.6%、xbench 78.0%。30B 级 ReAct 搜索 Agent 的 SOTA。BrowseComp 比 Tongyi DeepResearch（阿里）高 2.6%，BrowseComp-ZH 高 11.4%。还超过了 Claude-4.5-Sonnet、DeepSeek-V3.1-671B、GLM-4.6-357B、MiniMax-M2-230B —— 这些都比它大几倍。这是该模型规模和范式下第一个由纯学术团队仅用 SFT 训出来的 SOTA 搜索 Agent。

技术就是三个小数据调整。一，合成时把知识图谱放大，每个 query 都需要多跳证据。二，扩大工具集，逼 Agent 学会每个 query 组合更多工具。三，严格的低步数过滤 —— 把工具调用步数太少就能完成的轨迹全砍掉，给训练集设一个难度下限。每条轨迹平均工具调用 64.67 次。v1 是 46.97。RedSearcher 36.01。更长的轨迹就是真正的护城河。

这件事对 Agent 论的意义。一个流行假设是前沿 Agent 能力需要前沿算力和私有数据流水线。OpenSeeker-v2 是目前最干净的反例 —— 瓶颈可能是数据质量，不是算力，学术团队用对了合成配方能跟上。如果这个结论能推广到搜索之外，训出一个有竞争力的 Agent 的劳动成本掉一个数量级。这跟更大的双峰 Agent 基础设施图景（Tool-Use Tax、AgentFloor）连得上 —— 短地平线小模型够用，长地平线必须前沿。OpenSeeker-v2 现在是小端这一侧最强的数据点。

底座 Qwen3-30B-A3B-Thinking-2507。256k 上下文，每条轨迹最多 200 次工具调用。模型权重将开源。论文：arxiv.org/abs/2605.04036。代码：github.com/PolarSeeker/OpenSeeker

← 上一篇

QuTwo 只靠天使轮做到 3.8 亿美金估值

Nova Intelligence 拿了 3150 万美金 A 轮，盯上 SAP 迁移这块大蛋糕

← 返回所有文章

加载中...

OpenSeeker-v2：纯学术队伍 SFT-only 干赢工业级流水线

相关文章

评论