2026年3月25日Infrastructure Open Source Tool

Hypura：Apple Silicon 上的存储感知 LLM 推理调度器

Hypura 是一款开源 LLM 推理调度器，能让超出物理内存容量的大语言模型在 Apple Silicon Mac 上运行。它根据访问模式和带宽成本，智能地将模型张量分布到 GPU、RAM 和 NVMe 存储三个层级。

该项目解决了一个关键限制：32GB 的 M1 Max 无法直接加载 40GB 的模型，操作系统会因交换抖动而触发 OOM 终止。Hypura 让之前不可能的推理场景变为现实——在 llama.cpp 直接崩溃的硬件上，Mixtral 8x7B 可以达到 2.2 tokens/秒，Llama 70B 可以达到 0.3 tokens/秒。

核心特性包括：针对 Mixtral 等 MoE 模型的专家流模式（通过神经元缓存实现 99.5% 缓存命中率）、针对 Llama 70B 等非 MoE 模型的密集 FFN 流模式、兼容 Ollama 的 HTTP API，以及对能放入内存的模型零额外开销。

Hypura 创建于 2026 年 3 月 13 日，目前在 Hacker News 上获得 194 分热度，GitHub 上获得 346 星。它代表了在消费级 Apple 硬件上普及大模型推理的重要一步。

GitHub：https://github.com/t8/hypura

← 上一篇

Maestri：编码智能体协作的无限画布

BitGo 推出 MCP 服务器，为 AI 智能体提供机构级加密资产接入

← 返回所有文章

加载中...

Hypura：Apple Silicon 上的存储感知 LLM 推理调度器

更多文章

评论