2026年6月6日Open Source Infrastructure

Google 把 Gemma 4 压进手机，还没压坏

Google DeepMind 昨天放出了 Gemma 4 的量化感知训练（QAT）检查点，直接冲上了 Hacker News 首页。一句话说清：他们把整条 Gemma 4 产品线压到了能在手机和笔记本上本地跑的程度，而且没有出现把模型压小时常见的那种质量跳水。

窍门就在名字里。大多数团队是训练完之后再压，叫训练后量化（PTQ），模型会掉精度，因为它根本不是为了住在 4-bit 里造的。QAT 反过来，在训练过程中就模拟量化，让模型在已经被压窄的状态下学着把活干好。回报很实在：4-bit 下内存大约降 72%，性能接近原版，还有一种新的手机专用格式，把 Gemma 4 E2B 的占用压到了 1GB。这次发布覆盖五个尺寸，E2B 和 E4B 冲着手机去，更大的 26B-A4B 和 31B 现在能在笔记本上跑，不再非得要一块猛的家用 GPU。

把它和同一天发布的 General Instinct 摆在一起，本周的主题就出来了。前沿不再只是最大集群里跑最大模型这一条线。还有一条平行赛道，是把真本事往设备上、往离线、往你口袋里压。Google 把 QAT 检查点开源，是模型实验室亲自下场打这场仗，而不是把端侧优化丢给第三方。

对任何做本地 agent 的人来说，这是玩具和工具的区别。一个能离线跑、只占 1GB 的能打的 Gemma，意味着你手机上的 agent 不用打电话给云端才能思考。https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/

← 上一篇

General Instinct: 把前沿模型塞进无人机和旧电脑

AdaPlanBench: 任务中途改规则，agent 就不会重新规划了

← 返回所有文章

加载中...

Google 把 Gemma 4 压进手机，还没压坏

相关文章

评论