2026年3月27日InfrastructureOpen SourceTool

Hypura:Apple Silicon向けストレージ階層対応LLM推論スケジューラ

Hypuraは、Apple Silicon Mac上で物理メモリを超える大規模言語モデルの実行を可能にする、オープンソースのLLM推論スケジューラです。アクセスパターンと帯域幅コストに基づき、モデルのテンソルをGPU、RAM、NVMeストレージの各階層にインテリジェントに分散配置します。

このプロジェクトは重大な制約を解決します。32GBのM1 Maxでは、40GBのモデルをそのまま読み込むとOSのスワップスラッシングが発生し、最終的にOOMキラーが介入します。Hypuraにより、従来不可能だった推論シナリオが実用的になりました。llama.cppではクラッシュするハードウェア上で、Mixtral 8x7Bが2.2トークン/秒、Llama 70Bが0.3トークン/秒で動作します。

主な特長として、ニューロンキャッシングによる99.5%のキャッシュヒット率を実現するMoEモデル向けエキスパートストリーミングモード、Llama 70Bなどの非MoEモデル向けのデンスFFNストリーミング、Ollama互換のHTTP API、メモリに収まるモデルではゼロオーバーヘッドを実現しています。

2026年3月13日に公開されたHypuraは、Hacker Newsで194ポイントを獲得しトレンド入り、GitHubでは346スターを獲得しました。コンシューマ向けAppleハードウェアでの大規模モデル推論の民主化に向けた重要な一歩です。

GitHub: https://github.com/t8/hypura
← 前の記事
Aikido x Lovable:バイブコーディング時代にエージェント型ペネトレーションテストが登場
次の記事 →
Binance AI Pro:世界最大の暗号資産取引所がエージェント型トレーディングプラットフォームを発表
← すべての記事に戻る

Comments

Loading...
>_