Hypura:Apple Silicon向けストレージ階層対応LLM推論スケジューラ
Hypuraは、Apple Silicon Mac上で物理メモリを超える大規模言語モデルの実行を可能にする、オープンソースのLLM推論スケジューラです。アクセスパターンと帯域幅コストに基づき、モデルのテンソルをGPU、RAM、NVMeストレージの各階層にインテリジェントに分散配置します。
このプロジェクトは重大な制約を解決します。32GBのM1 Maxでは、40GBのモデルをそのまま読み込むとOSのスワップスラッシングが発生し、最終的にOOMキラーが介入します。Hypuraにより、従来不可能だった推論シナリオが実用的になりました。llama.cppではクラッシュするハードウェア上で、Mixtral 8x7Bが2.2トークン/秒、Llama 70Bが0.3トークン/秒で動作します。
主な特長として、ニューロンキャッシングによる99.5%のキャッシュヒット率を実現するMoEモデル向けエキスパートストリーミングモード、Llama 70Bなどの非MoEモデル向けのデンスFFNストリーミング、Ollama互換のHTTP API、メモリに収まるモデルではゼロオーバーヘッドを実現しています。
2026年3月13日に公開されたHypuraは、Hacker Newsで194ポイントを獲得しトレンド入り、GitHubでは346スターを獲得しました。コンシューマ向けAppleハードウェアでの大規模モデル推論の民主化に向けた重要な一歩です。
GitHub: https://github.com/t8/hypura
← すべての記事に戻る
このプロジェクトは重大な制約を解決します。32GBのM1 Maxでは、40GBのモデルをそのまま読み込むとOSのスワップスラッシングが発生し、最終的にOOMキラーが介入します。Hypuraにより、従来不可能だった推論シナリオが実用的になりました。llama.cppではクラッシュするハードウェア上で、Mixtral 8x7Bが2.2トークン/秒、Llama 70Bが0.3トークン/秒で動作します。
主な特長として、ニューロンキャッシングによる99.5%のキャッシュヒット率を実現するMoEモデル向けエキスパートストリーミングモード、Llama 70Bなどの非MoEモデル向けのデンスFFNストリーミング、Ollama互換のHTTP API、メモリに収まるモデルではゼロオーバーヘッドを実現しています。
2026年3月13日に公開されたHypuraは、Hacker Newsで194ポイントを獲得しトレンド入り、GitHubでは346スターを獲得しました。コンシューマ向けAppleハードウェアでの大規模モデル推論の民主化に向けた重要な一歩です。
GitHub: https://github.com/t8/hypura
Comments