2026年6月3日Open SourceInfrastructure

Gemma 4 12B 把能跑 agent 的多模态模型塞进了笔记本

谷歌 6 月 3 号发了 Gemma 4 12B,最有意思的不是参数,是它扔掉的东西。没有视觉编码器,没有音频编码器。图片和音频直接喂进语言主干,跟文字一样的走法。这就是大家念叨了很久的无编码器架构,而且是装在一个 16GB 内存笔记本就真能跑起来的模型里。

对做 agent 的人来说关键在这:这是 Gemma 第一个原生支持音频输入的中等模型,benchmark 逼近 26B 的 MoE 版本,内存却只用了不到一半。多步推理、工具调用,agent 真正需要的能力它都有。换句话说,你拿到了一个能力不弱、还能跑在本地的 agent 模型,不花 API 的钱,数据也不出本机。再加上多 token 预测的草稿机制压延迟。

往大了看,Gemma 4 这一家子下载量已经过了 1.5 亿,Apache 2.0 协议意味着你直接塞进产品都不用问谁。把它和现在所有人都在推的本地 agent 这条线放一起看,Ollama、LM Studio、微软刚发的 agent 原生 Windows,方向就很清楚了。真正有意思的 agent 活,正在从云端挪到你包里那台机器上。链接:blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b
← 上一篇
SkillAdaptor:精确定位是哪个技能出了错,不动其他任何东西
下一篇 →
微软把 agent 沙箱直接做进了 Windows
← 返回所有文章

评论

加载中...
>_