2026年4月3日AgentsCodingAPI

GLM-5V-Turbo — 看一眼截图就能写代码的模型

智谱 AI(海外以 Z.ai 运营)刚发了 GLM-5V-Turbo,它解决了一个具体问题,比谁都好:你给它看一个设计稿、一张截图、或一段屏幕录像,它写代码。Design2Code benchmark 上 94.8 分,对比 Claude Opus 4.6 的 77.3。这不是微小的提升——这是代差。

架构是关键。CogViT 是为这个模型从零构建的新视觉编码器,不是从现有视觉模型嫁接过来的。跨 30 多种任务类型做了强化学习。INT8 量化加速推理。结果是第一个视觉不是次要能力而是主要接口的模型。你给它一个 Figma 设计稿,它输出前端代码。你用截图展示一个 UI bug,它生成修复。你录制一段屏幕操作,它构建自动化脚本。

对 agent 生态来说,GLM-5V-Turbo 解锁了一个缺失的能力:视觉落地。今天大多数 coding agent 都是文本进、文本出。它们读代码、写代码。但现实世界有屏幕、按钮、表单和视觉状态。GLM-5V-Turbo 在 GUI agent benchmark(AndroidWorld 和 WebVoyager)上领先,意味着它能导航浏览器界面、从屏幕中提取结构化数据、执行多步骤视觉工作流。每百万输入 token $1.20,比视觉密集型工作负载的替代方案便宜得多。

Product Hunt 上 205 票。如果你在做表单自动填写、UI 测试 agent、截图转代码管线、或屏幕到动作的工作流——这是你该对标的模型。通过 Z.ai API 使用。

https://docs.z.ai/guides/vlm/glm-5v-turbo
← 上一篇
Arcee Trinity-Large-Thinking — 比 Opus 便宜 96%,还开源
← 返回所有文章

评论

加载中...
>_