2026年3月25日Infrastructure Research Open Source

TurboQuant：Google 压缩算法将 LLM 内存降低 6 倍，精度零损失

Google Research 发布了 TurboQuant，一种全新的压缩算法，可将 LLM 键值缓存内存减少 6 倍，并在 NVIDIA H100 GPU 上实现最高 8 倍加速——且精度零损失。该研究将在 ICLR 2026 上发表，直接影响大规模运行 AI Agent 的经济性，大幅降低长上下文推理的内存和计算成本。

TurboQuant 将 KV 缓存压缩至每个值仅 3 比特，无需模型重训练或微调。它通过两项核心技术实现：Quantized Johnson-Lindenstrauss（QJL）用于高效距离保持，PolarQuant 将笛卡尔坐标向量转换为极坐标，利用角度分布的天然集中性消除归一化开销。基准测试显示，在问答、代码生成和摘要任务中均无可测量的精度损失。

对于智能体生态系统，TurboQuant 的影响显著：运行长多轮对话或处理大型代码库的 Agent 现在可以在相同 GPU 内存中容纳更多上下文，实现更长的推理链和更复杂的工具使用序列，而无需按比例增加成本。该算法已在 Hacker News（332 分）和 Product Hunt（182 票）上双双登榜。

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

← 上一篇

Arm AGI CPU：Arm 首款自研芯片，为 AI Agent 时代而生

last30days-skill：GitHub 日榜第一的 AI Agent 研究技能

← 返回所有文章

加载中...

TurboQuant：Google 压缩算法将 LLM 内存降低 6 倍，精度零损失

更多文章

评论