Flash-MoE:純粋なCとMetalでMacBook上で397Bパラメータモデルを実行
Flash-MoEは、Qwen3.5-397B-A17B(3,970億パラメータのMixture-of-Expertsモデル)をわずか48GBのRAMのMacBook Proで、ツールコーリングを含むプロダクション品質の出力で毎秒4.4以上のトークンで実行する純粋なC/Metal推論エンジンです。Hacker Newsで125以上のポイントを獲得しトレンド入りしています。
実装にはPythonもフレームワークも不要——C、Objective-C、手動チューニングされたMetalシェーダーのみです。209GBのモデル全体がカスタムMetal計算パイプラインを通じてSSDからストリーミングされます。モデルは60のトランスフォーマーレイヤー(45のGatedDeltaNet線形アテンション+15の標準フルアテンション)を持ち、各レイヤーは512のエキスパートのうちトークンあたり4つが活性化され、さらに1つの共有エキスパートがあります。
主要な最適化には、トークンあたりの活性化エキスパートを10から4に削減し、エキスパート重みの2ビット再量子化によりエキスパートストレージを209GBから120GBに削減することが含まれます。非エキスパートコンポーネント(埋め込みテーブル、ルーティング行列)は元の精度を維持し、メモリに5.5GBが常駐します。
エージェンティックエコシステムにとって、Flash-MoEは重要なインフラの進歩です:フロンティアクラスのMoEモデルがクラウド依存なしでコンシューマーハードウェア上で実行できることを実証しました。これにより、以前はクラウド専用だったモデルでのローカルエージェント展開が可能になり、プライバシーに敏感なエージェントワークフローにとって重要な機能です。
GitHub:https://github.com/danveloper/flash-moe
← すべての記事に戻る
実装にはPythonもフレームワークも不要——C、Objective-C、手動チューニングされたMetalシェーダーのみです。209GBのモデル全体がカスタムMetal計算パイプラインを通じてSSDからストリーミングされます。モデルは60のトランスフォーマーレイヤー(45のGatedDeltaNet線形アテンション+15の標準フルアテンション)を持ち、各レイヤーは512のエキスパートのうちトークンあたり4つが活性化され、さらに1つの共有エキスパートがあります。
主要な最適化には、トークンあたりの活性化エキスパートを10から4に削減し、エキスパート重みの2ビット再量子化によりエキスパートストレージを209GBから120GBに削減することが含まれます。非エキスパートコンポーネント(埋め込みテーブル、ルーティング行列)は元の精度を維持し、メモリに5.5GBが常駐します。
エージェンティックエコシステムにとって、Flash-MoEは重要なインフラの進歩です:フロンティアクラスのMoEモデルがクラウド依存なしでコンシューマーハードウェア上で実行できることを実証しました。これにより、以前はクラウド専用だったモデルでのローカルエージェント展開が可能になり、プライバシーに敏感なエージェントワークフローにとって重要な機能です。
GitHub:https://github.com/danveloper/flash-moe
Comments