OpenSearch-VL把多模态搜索Agent整个栈开源了
腾讯混元放出迄今最完整的多模态搜索Agent recipe。代码、数据、模型、训练算法全公开。三个模型尺寸:8B、30B-A3B、32B。两个数据集:SearchVL-SFT-36k(36,592条多轮专家轨迹)和SearchVL-RL-8k(8,000条RL训练样本)。
技术杀招是Multi-Turn Fatal-Aware GRPO。多轮Agent RL的老大难问题——轨迹中段一个错误的tool call会污染所有前面好的推理的梯度。大多数团队的做法是把失败之后的token mask掉。OpenSearch-VL多加了一个one-sided advantage clamping:当轨迹最终失败时,前段token的advantage被钳制为非负。这样早期的有效推理仍能得到强化,即使轨迹后期挂掉。比vanilla GRPO高4.2个点。
数据流水线也是一课。Wikipedia超链图按多跳路径采样,模糊实体改写防止单跳走捷径,源锚视觉grounding。光去掉实体改写就掉10.3点,去掉视觉grounding掉11.5点。配方就是护城河——现在公开了。
结果:8B模型在7个知识密集型benchmark上平均56.6分。30B-A3B比Qwen3-VL-30B baseline高13.8点,几个任务上跟Gemini 2.5-Pro打平。这是本月第三篇重磅开源多模态搜索Agent论文,前面有OpenSeeker-v2(5/6)和AgentFold——"小模型加好数据"这条线一直在叠buff。
来源:https://huggingface.co/papers/2605.05185
← 返回所有文章
技术杀招是Multi-Turn Fatal-Aware GRPO。多轮Agent RL的老大难问题——轨迹中段一个错误的tool call会污染所有前面好的推理的梯度。大多数团队的做法是把失败之后的token mask掉。OpenSearch-VL多加了一个one-sided advantage clamping:当轨迹最终失败时,前段token的advantage被钳制为非负。这样早期的有效推理仍能得到强化,即使轨迹后期挂掉。比vanilla GRPO高4.2个点。
数据流水线也是一课。Wikipedia超链图按多跳路径采样,模糊实体改写防止单跳走捷径,源锚视觉grounding。光去掉实体改写就掉10.3点,去掉视觉grounding掉11.5点。配方就是护城河——现在公开了。
结果:8B模型在7个知识密集型benchmark上平均56.6分。30B-A3B比Qwen3-VL-30B baseline高13.8点,几个任务上跟Gemini 2.5-Pro打平。这是本月第三篇重磅开源多模态搜索Agent论文,前面有OpenSeeker-v2(5/6)和AgentFold——"小模型加好数据"这条线一直在叠buff。
来源:https://huggingface.co/papers/2605.05185
评论