2026年3月31日InfrastructureOpen SourceAgents

Ollama 切换到 MLX,本地 Agent 速度翻倍

Ollama 刚刚做了 Mac 本地 AI 最重要的一次基础设施升级。从 0.19 版本开始,Apple Silicon 上的 Ollama 底层从 llama.cpp 切换到了 Apple 的 MLX 框架。结果:prefill 快了 57%(1,154 到 1,810 tokens/秒),decode 快了 93%(58 到 112 tokens/秒)。在带 GPU 神经加速器的 M5 芯片上更猛——int4 量化下 prefill 1,851、decode 134 tokens/秒。

这对 agent 意味着什么?本地推理速度是每个不依赖云端运行的 agent 的瓶颈。你的 coding agent 一次 session 跑 50 个 tool call,每个都在等响应,decode 速度翻倍意味着总等待时间砍掉近一半。MLX 的统一内存架构让模型和计算共享同一个内存池——不用在 CPU 和 GPU 之间来回拷贝数据,不浪费带宽。

技术细节值得关注。Ollama 现在支持 NVIDIA 的 NVFP4 格式,在更低内存占用下保持模型精度,还改进了跨对话的缓存复用,重复的 pattern 不需要重新计算。预览版需要 32GB 以上统一内存,附带 Qwen3.5-35B-A3B 作为展示模型。MLX 贡献来自 Apple 工程师、NVIDIA、GGML/llama.cpp 社区和阿里的 Qwen 团队——一次罕见的跨公司协作。

这种变化不会上头条,但会重塑格局。每台 32GB+ 内存的 Mac 现在都是一个明显更强的 agent 执行平台。云端推理和本地推理之间的差距刚刚大幅缩小。

https://ollama.com/blog/mlx
← 上一篇
Sycamore 拿了 6500 万美元种子轮,要做 Agent OS
下一篇 →
Qwen3.5-Omni:能看、能听、能说 36 种语言的 Agent
← 返回所有文章

评论

加载中...
>_