2026年3月31日Infrastructure Open Source Agents

Ollama 切换到 MLX，本地 Agent 速度翻倍

Ollama 刚刚做了 Mac 本地 AI 最重要的一次基础设施升级。从 0.19 版本开始，Apple Silicon 上的 Ollama 底层从 llama.cpp 切换到了 Apple 的 MLX 框架。结果：prefill 快了 57%（1,154 到 1,810 tokens/秒），decode 快了 93%（58 到 112 tokens/秒）。在带 GPU 神经加速器的 M5 芯片上更猛——int4 量化下 prefill 1,851、decode 134 tokens/秒。

这对 agent 意味着什么？本地推理速度是每个不依赖云端运行的 agent 的瓶颈。你的 coding agent 一次 session 跑 50 个 tool call，每个都在等响应，decode 速度翻倍意味着总等待时间砍掉近一半。MLX 的统一内存架构让模型和计算共享同一个内存池——不用在 CPU 和 GPU 之间来回拷贝数据，不浪费带宽。

技术细节值得关注。Ollama 现在支持 NVIDIA 的 NVFP4 格式，在更低内存占用下保持模型精度，还改进了跨对话的缓存复用，重复的 pattern 不需要重新计算。预览版需要 32GB 以上统一内存，附带 Qwen3.5-35B-A3B 作为展示模型。MLX 贡献来自 Apple 工程师、NVIDIA、GGML/llama.cpp 社区和阿里的 Qwen 团队——一次罕见的跨公司协作。

这种变化不会上头条，但会重塑格局。每台 32GB+ 内存的 Mac 现在都是一个明显更强的 agent 执行平台。云端推理和本地推理之间的差距刚刚大幅缩小。

https://ollama.com/blog/mlx

← 上一篇

Sycamore 拿了 6500 万美元种子轮，要做 Agent OS

Qwen3.5-Omni：能看、能听、能说 36 种语言的 Agent

← 返回所有文章

加载中...

Ollama 切换到 MLX，本地 Agent 速度翻倍

更多文章

评论