2026年5月7日Agents Open Source Research

OpenSearch-VL把多模态搜索Agent整个栈开源了

腾讯混元放出迄今最完整的多模态搜索Agent recipe。代码、数据、模型、训练算法全公开。三个模型尺寸：8B、30B-A3B、32B。两个数据集：SearchVL-SFT-36k（36,592条多轮专家轨迹）和SearchVL-RL-8k（8,000条RL训练样本）。

技术杀招是Multi-Turn Fatal-Aware GRPO。多轮Agent RL的老大难问题——轨迹中段一个错误的tool call会污染所有前面好的推理的梯度。大多数团队的做法是把失败之后的token mask掉。OpenSearch-VL多加了一个one-sided advantage clamping：当轨迹最终失败时，前段token的advantage被钳制为非负。这样早期的有效推理仍能得到强化，即使轨迹后期挂掉。比vanilla GRPO高4.2个点。

数据流水线也是一课。Wikipedia超链图按多跳路径采样，模糊实体改写防止单跳走捷径，源锚视觉grounding。光去掉实体改写就掉10.3点，去掉视觉grounding掉11.5点。配方就是护城河——现在公开了。

结果：8B模型在7个知识密集型benchmark上平均56.6分。30B-A3B比Qwen3-VL-30B baseline高13.8点，几个任务上跟Gemini 2.5-Pro打平。这是本月第三篇重磅开源多模态搜索Agent论文，前面有OpenSeeker-v2（5/6）和AgentFold——"小模型加好数据"这条线一直在叠buff。

来源：https://huggingface.co/papers/2605.05185

← 上一篇

RadixArk获1亿美元种子——SGLang要商业化了

AgentTrust——Cursor删库问题的第六种架构答案

← 返回所有文章

加载中...

OpenSearch-VL把多模态搜索Agent整个栈开源了

更多文章

评论