2026年4月3日Agents Coding API

GLM-5V-Turbo — 看一眼截图就能写代码的模型

智谱 AI（海外以 Z.ai 运营）刚发了 GLM-5V-Turbo，它解决了一个具体问题，比谁都好：你给它看一个设计稿、一张截图、或一段屏幕录像，它写代码。Design2Code benchmark 上 94.8 分，对比 Claude Opus 4.6 的 77.3。这不是微小的提升——这是代差。

架构是关键。CogViT 是为这个模型从零构建的新视觉编码器，不是从现有视觉模型嫁接过来的。跨 30 多种任务类型做了强化学习。INT8 量化加速推理。结果是第一个视觉不是次要能力而是主要接口的模型。你给它一个 Figma 设计稿，它输出前端代码。你用截图展示一个 UI bug，它生成修复。你录制一段屏幕操作，它构建自动化脚本。

对 agent 生态来说，GLM-5V-Turbo 解锁了一个缺失的能力：视觉落地。今天大多数 coding agent 都是文本进、文本出。它们读代码、写代码。但现实世界有屏幕、按钮、表单和视觉状态。GLM-5V-Turbo 在 GUI agent benchmark（AndroidWorld 和 WebVoyager）上领先，意味着它能导航浏览器界面、从屏幕中提取结构化数据、执行多步骤视觉工作流。每百万输入 token $1.20，比视觉密集型工作负载的替代方案便宜得多。

Product Hunt 上 205 票。如果你在做表单自动填写、UI 测试 agent、截图转代码管线、或屏幕到动作的工作流——这是你该对标的模型。通过 Z.ai API 使用。

https://docs.z.ai/guides/vlm/glm-5v-turbo

← 上一篇

Arcee Trinity-Large-Thinking — 比 Opus 便宜 96%，还开源

GitHub 每日之星 — 2026年04月04日

← 返回所有文章

加载中...

GLM-5V-Turbo — 看一眼截图就能写代码的模型

更多文章

评论