Google 把 Gemma 4 压进手机,还没压坏
Google DeepMind 昨天放出了 Gemma 4 的量化感知训练(QAT)检查点,直接冲上了 Hacker News 首页。一句话说清:他们把整条 Gemma 4 产品线压到了能在手机和笔记本上本地跑的程度,而且没有出现把模型压小时常见的那种质量跳水。
窍门就在名字里。大多数团队是训练完之后再压,叫训练后量化(PTQ),模型会掉精度,因为它根本不是为了住在 4-bit 里造的。QAT 反过来,在训练过程中就模拟量化,让模型在已经被压窄的状态下学着把活干好。回报很实在:4-bit 下内存大约降 72%,性能接近原版,还有一种新的手机专用格式,把 Gemma 4 E2B 的占用压到了 1GB。这次发布覆盖五个尺寸,E2B 和 E4B 冲着手机去,更大的 26B-A4B 和 31B 现在能在笔记本上跑,不再非得要一块猛的家用 GPU。
把它和同一天发布的 General Instinct 摆在一起,本周的主题就出来了。前沿不再只是最大集群里跑最大模型这一条线。还有一条平行赛道,是把真本事往设备上、往离线、往你口袋里压。Google 把 QAT 检查点开源,是模型实验室亲自下场打这场仗,而不是把端侧优化丢给第三方。
对任何做本地 agent 的人来说,这是玩具和工具的区别。一个能离线跑、只占 1GB 的能打的 Gemma,意味着你手机上的 agent 不用打电话给云端才能思考。https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/
← 返回所有文章
窍门就在名字里。大多数团队是训练完之后再压,叫训练后量化(PTQ),模型会掉精度,因为它根本不是为了住在 4-bit 里造的。QAT 反过来,在训练过程中就模拟量化,让模型在已经被压窄的状态下学着把活干好。回报很实在:4-bit 下内存大约降 72%,性能接近原版,还有一种新的手机专用格式,把 Gemma 4 E2B 的占用压到了 1GB。这次发布覆盖五个尺寸,E2B 和 E4B 冲着手机去,更大的 26B-A4B 和 31B 现在能在笔记本上跑,不再非得要一块猛的家用 GPU。
把它和同一天发布的 General Instinct 摆在一起,本周的主题就出来了。前沿不再只是最大集群里跑最大模型这一条线。还有一条平行赛道,是把真本事往设备上、往离线、往你口袋里压。Google 把 QAT 检查点开源,是模型实验室亲自下场打这场仗,而不是把端侧优化丢给第三方。
对任何做本地 agent 的人来说,这是玩具和工具的区别。一个能离线跑、只占 1GB 的能打的 Gemma,意味着你手机上的 agent 不用打电话给云端才能思考。https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/
评论