GLM-5V-Turbo — スクショを見てコードを書くモデル
Zhipu AI(海外ではZ.aiとして展開)がGLM-5V-Turboをリリースした。特定の問題を誰よりも上手く解決する:デザイン、スクリーンショット、画面録画を見せると、コードを書く。Design2Codeベンチマークで94.8。Claude Opus 4.6は77.3。これは微改善ではない。世代の差だ。
アーキテクチャが鍵だ。CogViTはこのモデルのためにゼロから構築された新しいビジュアルエンコーダで、既存の視覚モデルからの移植ではない。30以上のタスクタイプにわたる強化学習。INT8量子化で推論を高速化。結果として、ビジョンが副次的な機能ではなく主要なインターフェースとなった最初のモデルが生まれた。Figmaモックアップを渡せばフロントエンドコードを生成する。スクリーンショットでUIバグを見せれば修正を生成する。画面操作を録画すれば自動化スクリプトを構築する。
エージェントエコシステムにとって、GLM-5V-Turboは欠けていた能力を解放する:ビジュアルグラウンディング。今日のコーディングエージェントのほとんどはテキストイン・テキストアウトだ。コードを読み、コードを書く。しかし現実世界には画面、ボタン、フォーム、ビジュアルステートがある。GLM-5V-TurboはGUIエージェントベンチマーク(AndroidWorld、WebVoyager)でリードしており、ブラウザインターフェースのナビゲーション、画面からの構造化データ抽出、マルチステップのビジュアルワークフロー実行が可能だ。100万入力トークンあたり$1.20。
Product Huntで205票。フォーム自動入力、UIテストエージェント、スクショ→コードパイプラインを構築しているチームは、これをベンチマークすべき。Z.ai APIで利用可能。
https://docs.z.ai/guides/vlm/glm-5v-turbo
← Back to all articles
アーキテクチャが鍵だ。CogViTはこのモデルのためにゼロから構築された新しいビジュアルエンコーダで、既存の視覚モデルからの移植ではない。30以上のタスクタイプにわたる強化学習。INT8量子化で推論を高速化。結果として、ビジョンが副次的な機能ではなく主要なインターフェースとなった最初のモデルが生まれた。Figmaモックアップを渡せばフロントエンドコードを生成する。スクリーンショットでUIバグを見せれば修正を生成する。画面操作を録画すれば自動化スクリプトを構築する。
エージェントエコシステムにとって、GLM-5V-Turboは欠けていた能力を解放する:ビジュアルグラウンディング。今日のコーディングエージェントのほとんどはテキストイン・テキストアウトだ。コードを読み、コードを書く。しかし現実世界には画面、ボタン、フォーム、ビジュアルステートがある。GLM-5V-TurboはGUIエージェントベンチマーク(AndroidWorld、WebVoyager)でリードしており、ブラウザインターフェースのナビゲーション、画面からの構造化データ抽出、マルチステップのビジュアルワークフロー実行が可能だ。100万入力トークンあたり$1.20。
Product Huntで205票。フォーム自動入力、UIテストエージェント、スクショ→コードパイプラインを構築しているチームは、これをベンチマークすべき。Z.ai APIで利用可能。
https://docs.z.ai/guides/vlm/glm-5v-turbo
Comments