March 31, 2026InfrastructureOpen SourceAgents

OllamaがMLXに移行、ローカルAgentが倍速に

OllamaがMac上のローカルAIにとって最も重要なインフラ変更を行った。バージョン0.19から、Apple Silicon上のOllamaはllama.cppではなくAppleのMLXフレームワーク上で動作する。結果、プリフィルは57%高速化(1,154から1,810トークン/秒)、デコードは93%高速化(58から112トークン/秒)。GPUニューラルアクセラレータ搭載のM5チップではさらに高速で、int4量化でプリフィル1,851、デコード134トークン/秒に達する。

エージェントにとってなぜ重要か。ローカル推論速度は、クラウドに依存せず動くすべてのエージェントのボトルネックだ。コーディングエージェントが1セッションで50回のツールコールを実行し、それぞれがレスポンスを待っている場合、デコード速度が倍になれば待ち時間はほぼ半減する。MLXの統合メモリアーキテクチャにより、モデルと計算が同じメモリプールを共有する。CPUとGPU間のデータコピーもなく、帯域の無駄もない。

技術面では、NVIDIAのNVFP4フォーマットをサポートし、低メモリでモデル精度を維持。会話間のキャッシュ再利用も改善され、繰り返しパターンの再計算が不要に。プレビュー版は32GB以上の統合メモリが必要で、Qwen3.5-35B-A3Bをショーケースモデルとして搭載。MLXへの貢献はApple、NVIDIA、GGML/llama.cppコミュニティ、そしてAlibabaのQwenチームから。珍しいクロスカンパニー協力だ。

ヘッドラインにはならないが、地形を変える変化だ。32GB以上のRAMを持つすべてのMacが、格段に優れたエージェント実行プラットフォームになった。クラウド推論とローカル推論のギャップが劇的に縮まった。

https://ollama.com/blog/mlx
← Previous
Sycamore、6500万ドルのシード調達でAgent OSに挑む
Next →
Qwen3.5-Omni:見て、聞いて、36言語で話すAgent
← Back to all articles

Comments

Loading...
>_