OpenSeeker-v2:纯学术队伍 SFT-only 干赢工业级流水线
OpenSeeker-v2 这周上 arXiv,直接冲上 HuggingFace Daily Papers #1,622 个 upvote。上海交大团队 —— Yuwen Du、Rui Ye、Shuo Tang 等等 —— 纯学术,没有工业预算。他们用最简单的 SFT 训了一个 30B 参数的搜索 Agent。没有持续预训练。没有强化学习。就是在 10.6k 条高质量轨迹上做监督微调。然后它打过了 Tongyi DeepResearch(阿里通义)和 RedSearcher(小红书),两者都用完整的 CPT + SFT + RL 工业级流水线。
数字。BrowseComp 46.0%、BrowseComp-ZH 58.1%、Humanity's Last Exam 34.6%、xbench 78.0%。30B 级 ReAct 搜索 Agent 的 SOTA。BrowseComp 比 Tongyi DeepResearch(阿里)高 2.6%,BrowseComp-ZH 高 11.4%。还超过了 Claude-4.5-Sonnet、DeepSeek-V3.1-671B、GLM-4.6-357B、MiniMax-M2-230B —— 这些都比它大几倍。这是该模型规模和范式下第一个由纯学术团队仅用 SFT 训出来的 SOTA 搜索 Agent。
技术就是三个小数据调整。一,合成时把知识图谱放大,每个 query 都需要多跳证据。二,扩大工具集,逼 Agent 学会每个 query 组合更多工具。三,严格的低步数过滤 —— 把工具调用步数太少就能完成的轨迹全砍掉,给训练集设一个难度下限。每条轨迹平均工具调用 64.67 次。v1 是 46.97。RedSearcher 36.01。更长的轨迹就是真正的护城河。
这件事对 Agent 论的意义。一个流行假设是前沿 Agent 能力需要前沿算力和私有数据流水线。OpenSeeker-v2 是目前最干净的反例 —— 瓶颈可能是数据质量,不是算力,学术团队用对了合成配方能跟上。如果这个结论能推广到搜索之外,训出一个有竞争力的 Agent 的劳动成本掉一个数量级。这跟更大的双峰 Agent 基础设施图景(Tool-Use Tax、AgentFloor)连得上 —— 短地平线小模型够用,长地平线必须前沿。OpenSeeker-v2 现在是小端这一侧最强的数据点。
底座 Qwen3-30B-A3B-Thinking-2507。256k 上下文,每条轨迹最多 200 次工具调用。模型权重将开源。论文:arxiv.org/abs/2605.04036。代码:github.com/PolarSeeker/OpenSeeker
← 返回所有文章
数字。BrowseComp 46.0%、BrowseComp-ZH 58.1%、Humanity's Last Exam 34.6%、xbench 78.0%。30B 级 ReAct 搜索 Agent 的 SOTA。BrowseComp 比 Tongyi DeepResearch(阿里)高 2.6%,BrowseComp-ZH 高 11.4%。还超过了 Claude-4.5-Sonnet、DeepSeek-V3.1-671B、GLM-4.6-357B、MiniMax-M2-230B —— 这些都比它大几倍。这是该模型规模和范式下第一个由纯学术团队仅用 SFT 训出来的 SOTA 搜索 Agent。
技术就是三个小数据调整。一,合成时把知识图谱放大,每个 query 都需要多跳证据。二,扩大工具集,逼 Agent 学会每个 query 组合更多工具。三,严格的低步数过滤 —— 把工具调用步数太少就能完成的轨迹全砍掉,给训练集设一个难度下限。每条轨迹平均工具调用 64.67 次。v1 是 46.97。RedSearcher 36.01。更长的轨迹就是真正的护城河。
这件事对 Agent 论的意义。一个流行假设是前沿 Agent 能力需要前沿算力和私有数据流水线。OpenSeeker-v2 是目前最干净的反例 —— 瓶颈可能是数据质量,不是算力,学术团队用对了合成配方能跟上。如果这个结论能推广到搜索之外,训出一个有竞争力的 Agent 的劳动成本掉一个数量级。这跟更大的双峰 Agent 基础设施图景(Tool-Use Tax、AgentFloor)连得上 —— 短地平线小模型够用,长地平线必须前沿。OpenSeeker-v2 现在是小端这一侧最强的数据点。
底座 Qwen3-30B-A3B-Thinking-2507。256k 上下文,每条轨迹最多 200 次工具调用。模型权重将开源。论文:arxiv.org/abs/2605.04036。代码:github.com/PolarSeeker/OpenSeeker
评论