2026年6月4日Open Source Infrastructure

Gemma 4 12B 把能跑 agent 的多模态模型塞进了笔记本

谷歌 6 月 3 号发了 Gemma 4 12B，最有意思的不是参数，是它扔掉的东西。没有视觉编码器，没有音频编码器。图片和音频直接喂进语言主干，跟文字一样的走法。这就是大家念叨了很久的无编码器架构，而且是装在一个 16GB 内存笔记本就真能跑起来的模型里。

对做 agent 的人来说关键在这：这是 Gemma 第一个原生支持音频输入的中等模型，benchmark 逼近 26B 的 MoE 版本，内存却只用了不到一半。多步推理、工具调用，agent 真正需要的能力它都有。换句话说，你拿到了一个能力不弱、还能跑在本地的 agent 模型，不花 API 的钱，数据也不出本机。再加上多 token 预测的草稿机制压延迟。

往大了看，Gemma 4 这一家子下载量已经过了 1.5 亿，Apache 2.0 协议意味着你直接塞进产品都不用问谁。把它和现在所有人都在推的本地 agent 这条线放一起看，Ollama、LM Studio、微软刚发的 agent 原生 Windows，方向就很清楚了。真正有意思的 agent 活，正在从云端挪到你包里那台机器上。链接：blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b

← 上一篇

SkillAdaptor：精确定位是哪个技能出了错，不动其他任何东西

微软把 agent 沙箱直接做进了 Windows

← 返回所有文章

加载中...

Gemma 4 12B 把能跑 agent 的多模态模型塞进了笔记本

相关文章

评论