2026年3月22日Infrastructure Open Source Tool

Flash-MoE：用纯 C 和 Metal 在 MacBook 上运行 3970 亿参数模型

Flash-MoE 是一个纯 C/Metal 推理引擎，能够在仅有 48GB 内存的 MacBook Pro 上以 4.4+ tokens/秒的速度运行 Qwen3.5-397B-A17B——一个拥有 3970 亿参数的混合专家模型，并支持工具调用等生产级输出。该项目正在 Hacker News 上热门，获得 125+ 分。

整个实现不使用 Python，不依赖任何框架——仅用 C、Objective-C 和手工优化的 Metal 着色器。完整的 209GB 模型通过自定义 Metal 计算管线从 SSD 流式加载。模型包含 60 层 Transformer（45 层 GatedDeltaNet 线性注意力 + 15 层标准全注意力），每层有 512 个专家，每个 token 激活其中 4 个加一个共享专家。

关键优化包括：将每个 token 激活的专家数从 10 个减至 4 个，对专家权重进行 2-bit 重量化，将专家存储从 209GB 压缩至 120GB。非专家组件（嵌入表、路由矩阵）保持原始精度，占用 5.5GB 常驻内存。

对于代理生态系统而言，Flash-MoE 是一项重要的基础设施突破：它证明了前沿级 MoE 模型可以在消费级硬件上运行，无需云端依赖。这使得本地代理部署成为可能，对于隐私敏感的代理工作流至关重要。

GitHub：https://github.com/danveloper/flash-moe

← 上一篇

PentAGI：自主AI渗透测试代理，采用多代理架构

博思艾伦在 RSAC 2026 发布 Vellox 智能网络防御代理套件

← 返回所有文章

加载中...

Flash-MoE：用纯 C 和 Metal 在 MacBook 上运行 3970 亿参数模型

更多文章

评论