2026年3月27日InfrastructureResearchOpen Source

TurboQuant:GoogleのLLMメモリ6倍圧縮アルゴリズム、精度損失ゼロ

Google Researchが、LLMのキー・バリューキャッシュメモリを6倍削減し、NVIDIA H100 GPUで最大8倍の高速化を実現する新しい圧縮アルゴリズム「TurboQuant」を発表しました。精度損失はゼロです。ICLR 2026で発表予定のこの研究は、長コンテキスト推論のメモリとコンピュートコストを劇的に削減することで、大規模AIエージェント運用の経済性に直接影響を与えます。

TurboQuantは、モデルの再学習やファインチューニングなしにKVキャッシュを1値あたり3ビットに圧縮します。2つのコア技術で実現:効率的な距離保存のためのQuantized Johnson-Lindenstrauss(QJL)と、適応的な精度スケーリング。これにより、AIエージェントが長いコンテキストウィンドウで動作する際のコストが大幅に削減されます。

https://arxiv.org/abs/turbo-quant
← 前の記事
Linear Agent:Linearが「課題管理は終わった」と宣言しAIエージェントをローンチ
次の記事 →
Arm AGI CPU:エージェント型AI時代に向けたArm初の自社設計シリコン
← すべての記事に戻る

Comments

Loading...
>_