2026年3月27日Infrastructure Open Source Tool

Flash-MoE：純粋なCとMetalでMacBook上で397Bパラメータモデルを実行

Flash-MoEは、Qwen3.5-397B-A17B（3,970億パラメータのMixture-of-Expertsモデル）をわずか48GBのRAMのMacBook Proで、ツールコーリングを含むプロダクション品質の出力で毎秒4.4以上のトークンで実行する純粋なC/Metal推論エンジンです。Hacker Newsで125以上のポイントを獲得しトレンド入りしています。

実装にはPythonもフレームワークも不要——C、Objective-C、手動チューニングされたMetalシェーダーのみです。209GBのモデル全体がカスタムMetal計算パイプラインを通じてSSDからストリーミングされます。モデルは60のトランスフォーマーレイヤー（45のGatedDeltaNet線形アテンション+15の標準フルアテンション）を持ち、各レイヤーは512のエキスパートのうちトークンあたり4つが活性化され、さらに1つの共有エキスパートがあります。

主要な最適化には、トークンあたりの活性化エキスパートを10から4に削減し、エキスパート重みの2ビット再量子化によりエキスパートストレージを209GBから120GBに削減することが含まれます。非エキスパートコンポーネント（埋め込みテーブル、ルーティング行列）は元の精度を維持し、メモリに5.5GBが常駐します。

エージェンティックエコシステムにとって、Flash-MoEは重要なインフラの進歩です：フロンティアクラスのMoEモデルがクラウド依存なしでコンシューマーハードウェア上で実行できることを実証しました。これにより、以前はクラウド専用だったモデルでのローカルエージェント展開が可能になり、プライバシーに敏感なエージェントワークフローにとって重要な機能です。

GitHub：https://github.com/danveloper/flash-moe

← 前の記事

Booz Allen、RSAC 2026でエージェンティックサイバー防御スイートVelloxをローンチ

PentAGI：マルチエージェントアーキテクチャによる自律型AIペネトレーションテストエージェント

← すべての記事に戻る

Flash-MoE：純粋なCとMetalでMacBook上で397Bパラメータモデルを実行

関連記事

Comments