2026年3月25日InfrastructureOpen SourceTool

Hypura:Apple Silicon 上的存储感知 LLM 推理调度器

Hypura 是一款开源 LLM 推理调度器,能让超出物理内存容量的大语言模型在 Apple Silicon Mac 上运行。它根据访问模式和带宽成本,智能地将模型张量分布到 GPU、RAM 和 NVMe 存储三个层级。

该项目解决了一个关键限制:32GB 的 M1 Max 无法直接加载 40GB 的模型,操作系统会因交换抖动而触发 OOM 终止。Hypura 让之前不可能的推理场景变为现实——在 llama.cpp 直接崩溃的硬件上,Mixtral 8x7B 可以达到 2.2 tokens/秒,Llama 70B 可以达到 0.3 tokens/秒。

核心特性包括:针对 Mixtral 等 MoE 模型的专家流模式(通过神经元缓存实现 99.5% 缓存命中率)、针对 Llama 70B 等非 MoE 模型的密集 FFN 流模式、兼容 Ollama 的 HTTP API,以及对能放入内存的模型零额外开销。

Hypura 创建于 2026 年 3 月 13 日,目前在 Hacker News 上获得 194 分热度,GitHub 上获得 346 星。它代表了在消费级 Apple 硬件上普及大模型推理的重要一步。

GitHub:https://github.com/t8/hypura
← 上一篇
Maestri:编码智能体协作的无限画布
下一篇 →
BitGo 推出 MCP 服务器,为 AI 智能体提供机构级加密资产接入
← 返回所有文章

评论

加载中...
>_