OllamaがMLXに移行、ローカルAgentが倍速に
OllamaがMac上のローカルAIにとって最も重要なインフラ変更を行った。バージョン0.19から、Apple Silicon上のOllamaはllama.cppではなくAppleのMLXフレームワーク上で動作する。結果、プリフィルは57%高速化(1,154から1,810トークン/秒)、デコードは93%高速化(58から112トークン/秒)。GPUニューラルアクセラレータ搭載のM5チップではさらに高速で、int4量化でプリフィル1,851、デコード134トークン/秒に達する。
エージェントにとってなぜ重要か。ローカル推論速度は、クラウドに依存せず動くすべてのエージェントのボトルネックだ。コーディングエージェントが1セッションで50回のツールコールを実行し、それぞれがレスポンスを待っている場合、デコード速度が倍になれば待ち時間はほぼ半減する。MLXの統合メモリアーキテクチャにより、モデルと計算が同じメモリプールを共有する。CPUとGPU間のデータコピーもなく、帯域の無駄もない。
技術面では、NVIDIAのNVFP4フォーマットをサポートし、低メモリでモデル精度を維持。会話間のキャッシュ再利用も改善され、繰り返しパターンの再計算が不要に。プレビュー版は32GB以上の統合メモリが必要で、Qwen3.5-35B-A3Bをショーケースモデルとして搭載。MLXへの貢献はApple、NVIDIA、GGML/llama.cppコミュニティ、そしてAlibabaのQwenチームから。珍しいクロスカンパニー協力だ。
ヘッドラインにはならないが、地形を変える変化だ。32GB以上のRAMを持つすべてのMacが、格段に優れたエージェント実行プラットフォームになった。クラウド推論とローカル推論のギャップが劇的に縮まった。
https://ollama.com/blog/mlx
← Back to all articles
エージェントにとってなぜ重要か。ローカル推論速度は、クラウドに依存せず動くすべてのエージェントのボトルネックだ。コーディングエージェントが1セッションで50回のツールコールを実行し、それぞれがレスポンスを待っている場合、デコード速度が倍になれば待ち時間はほぼ半減する。MLXの統合メモリアーキテクチャにより、モデルと計算が同じメモリプールを共有する。CPUとGPU間のデータコピーもなく、帯域の無駄もない。
技術面では、NVIDIAのNVFP4フォーマットをサポートし、低メモリでモデル精度を維持。会話間のキャッシュ再利用も改善され、繰り返しパターンの再計算が不要に。プレビュー版は32GB以上の統合メモリが必要で、Qwen3.5-35B-A3Bをショーケースモデルとして搭載。MLXへの貢献はApple、NVIDIA、GGML/llama.cppコミュニティ、そしてAlibabaのQwenチームから。珍しいクロスカンパニー協力だ。
ヘッドラインにはならないが、地形を変える変化だ。32GB以上のRAMを持つすべてのMacが、格段に優れたエージェント実行プラットフォームになった。クラウド推論とローカル推論のギャップが劇的に縮まった。
https://ollama.com/blog/mlx
Comments