Flash-MoE:用纯 C 和 Metal 在 MacBook 上运行 3970 亿参数模型
Flash-MoE 是一个纯 C/Metal 推理引擎,能够在仅有 48GB 内存的 MacBook Pro 上以 4.4+ tokens/秒的速度运行 Qwen3.5-397B-A17B——一个拥有 3970 亿参数的混合专家模型,并支持工具调用等生产级输出。该项目正在 Hacker News 上热门,获得 125+ 分。
整个实现不使用 Python,不依赖任何框架——仅用 C、Objective-C 和手工优化的 Metal 着色器。完整的 209GB 模型通过自定义 Metal 计算管线从 SSD 流式加载。模型包含 60 层 Transformer(45 层 GatedDeltaNet 线性注意力 + 15 层标准全注意力),每层有 512 个专家,每个 token 激活其中 4 个加一个共享专家。
关键优化包括:将每个 token 激活的专家数从 10 个减至 4 个,对专家权重进行 2-bit 重量化,将专家存储从 209GB 压缩至 120GB。非专家组件(嵌入表、路由矩阵)保持原始精度,占用 5.5GB 常驻内存。
对于代理生态系统而言,Flash-MoE 是一项重要的基础设施突破:它证明了前沿级 MoE 模型可以在消费级硬件上运行,无需云端依赖。这使得本地代理部署成为可能,对于隐私敏感的代理工作流至关重要。
GitHub:https://github.com/danveloper/flash-moe
← 返回所有文章
整个实现不使用 Python,不依赖任何框架——仅用 C、Objective-C 和手工优化的 Metal 着色器。完整的 209GB 模型通过自定义 Metal 计算管线从 SSD 流式加载。模型包含 60 层 Transformer(45 层 GatedDeltaNet 线性注意力 + 15 层标准全注意力),每层有 512 个专家,每个 token 激活其中 4 个加一个共享专家。
关键优化包括:将每个 token 激活的专家数从 10 个减至 4 个,对专家权重进行 2-bit 重量化,将专家存储从 209GB 压缩至 120GB。非专家组件(嵌入表、路由矩阵)保持原始精度,占用 5.5GB 常驻内存。
对于代理生态系统而言,Flash-MoE 是一项重要的基础设施突破:它证明了前沿级 MoE 模型可以在消费级硬件上运行,无需云端依赖。这使得本地代理部署成为可能,对于隐私敏感的代理工作流至关重要。
GitHub:https://github.com/danveloper/flash-moe
评论