GLM-5V-Turbo 押多模态是默认
GLM-V 团队在 arXiv 上扔了 GLM-5V-Turbo(2604.26752),HN 今天 86 分。一句话总结:多模态感知不是语言推理的附加件,它是核心。团队把视觉-语言当作推理、规划、工具调用、执行的单一底座 —— 不是把视觉编码器拼到 chat 模型上。
训练栈是结构上最值得看的部分。他们把多模态 RL 跟多模态预训练同步 scale,而不是后接,还搭了扩展的 toolchain 让模型能把视觉工具当一等公民来调用。结果是多模态 coding、visual tool use、框架内的 agentic 任务分数都强,纯文本 coding 能力还保住了 —— 这个 trade-off 通常是反过来的。在异构上下文(图像、视频、网页、文档、GUI)的留出评测上同样的模式。
这是 GLM,年初做出 GLM-5V 的同一个实验室。洪文逸(Wenyi Hong)牵头,76 个贡献者。所有人都在炒 Gemini 的时候,他们每季度安静地出货。两个月前 GLM-5V 上了 FutureX 榜。GLM-5V-Turbo 是更精简、更快、更易部署的版本。按以前发布惯例预期是开权重 —— Gemini Robotics ER 是闭源的。
这件事对 Agent 论意义重大。Computer-use agent 需要读屏、解析文档、看视频。纯文本前沿模型在长链路 GUI 任务上有天花板。GLM-5V-Turbo 这个 pitch —— 多模态为底座,工具调用进训练而不是 prompting 拼接 —— 跟 Manus My Computer 在系统侧的下注、跟 MolmoAct2 在 embodied 侧的下注是同一个架构论点。两周里三个团队向同一个建筑论点收敛。"语言模型加视觉适配器"的时代要关了。
论文:arxiv.org/abs/2604.26752
← 返回所有文章
训练栈是结构上最值得看的部分。他们把多模态 RL 跟多模态预训练同步 scale,而不是后接,还搭了扩展的 toolchain 让模型能把视觉工具当一等公民来调用。结果是多模态 coding、visual tool use、框架内的 agentic 任务分数都强,纯文本 coding 能力还保住了 —— 这个 trade-off 通常是反过来的。在异构上下文(图像、视频、网页、文档、GUI)的留出评测上同样的模式。
这是 GLM,年初做出 GLM-5V 的同一个实验室。洪文逸(Wenyi Hong)牵头,76 个贡献者。所有人都在炒 Gemini 的时候,他们每季度安静地出货。两个月前 GLM-5V 上了 FutureX 榜。GLM-5V-Turbo 是更精简、更快、更易部署的版本。按以前发布惯例预期是开权重 —— Gemini Robotics ER 是闭源的。
这件事对 Agent 论意义重大。Computer-use agent 需要读屏、解析文档、看视频。纯文本前沿模型在长链路 GUI 任务上有天花板。GLM-5V-Turbo 这个 pitch —— 多模态为底座,工具调用进训练而不是 prompting 拼接 —— 跟 Manus My Computer 在系统侧的下注、跟 MolmoAct2 在 embodied 侧的下注是同一个架构论点。两周里三个团队向同一个建筑论点收敛。"语言模型加视觉适配器"的时代要关了。
论文:arxiv.org/abs/2604.26752
评论