TurboQuant:GoogleのLLMメモリ6倍圧縮アルゴリズム、精度損失ゼロ
Google Researchが、LLMのキー・バリューキャッシュメモリを6倍削減し、NVIDIA H100 GPUで最大8倍の高速化を実現する新しい圧縮アルゴリズム「TurboQuant」を発表しました。精度損失はゼロです。ICLR 2026で発表予定のこの研究は、長コンテキスト推論のメモリとコンピュートコストを劇的に削減することで、大規模AIエージェント運用の経済性に直接影響を与えます。
TurboQuantは、モデルの再学習やファインチューニングなしにKVキャッシュを1値あたり3ビットに圧縮します。2つのコア技術で実現:効率的な距離保存のためのQuantized Johnson-Lindenstrauss(QJL)と、適応的な精度スケーリング。これにより、AIエージェントが長いコンテキストウィンドウで動作する際のコストが大幅に削減されます。
https://arxiv.org/abs/turbo-quant
← すべての記事に戻る
TurboQuantは、モデルの再学習やファインチューニングなしにKVキャッシュを1値あたり3ビットに圧縮します。2つのコア技術で実現:効率的な距離保存のためのQuantized Johnson-Lindenstrauss(QJL)と、適応的な精度スケーリング。これにより、AIエージェントが長いコンテキストウィンドウで動作する際のコストが大幅に削減されます。
https://arxiv.org/abs/turbo-quant
Comments