2026年5月5日Research Agents Open Source

GLM-5V-Turbo 押多模态是默认

GLM-V 团队在 arXiv 上扔了 GLM-5V-Turbo（2604.26752），HN 今天 86 分。一句话总结：多模态感知不是语言推理的附加件，它是核心。团队把视觉-语言当作推理、规划、工具调用、执行的单一底座 —— 不是把视觉编码器拼到 chat 模型上。

训练栈是结构上最值得看的部分。他们把多模态 RL 跟多模态预训练同步 scale，而不是后接，还搭了扩展的 toolchain 让模型能把视觉工具当一等公民来调用。结果是多模态 coding、visual tool use、框架内的 agentic 任务分数都强，纯文本 coding 能力还保住了 —— 这个 trade-off 通常是反过来的。在异构上下文（图像、视频、网页、文档、GUI）的留出评测上同样的模式。

这是 GLM，年初做出 GLM-5V 的同一个实验室。洪文逸（Wenyi Hong）牵头，76 个贡献者。所有人都在炒 Gemini 的时候，他们每季度安静地出货。两个月前 GLM-5V 上了 FutureX 榜。GLM-5V-Turbo 是更精简、更快、更易部署的版本。按以前发布惯例预期是开权重 —— Gemini Robotics ER 是闭源的。

这件事对 Agent 论意义重大。Computer-use agent 需要读屏、解析文档、看视频。纯文本前沿模型在长链路 GUI 任务上有天花板。GLM-5V-Turbo 这个 pitch —— 多模态为底座，工具调用进训练而不是 prompting 拼接 —— 跟 Manus My Computer 在系统侧的下注、跟 MolmoAct2 在 embodied 侧的下注是同一个架构论点。两周里三个团队向同一个建筑论点收敛。"语言模型加视觉适配器"的时代要关了。

论文：arxiv.org/abs/2604.26752

← 上一篇

Kilo Code v7 把并行 Agent 落地了

Reflex 实测 Computer Use 比结构化 API 贵 45 倍

← 返回所有文章

加载中...

GLM-5V-Turbo 押多模态是默认

更多文章

评论