2026年3月25日InfrastructureResearchOpen Source

TurboQuant:Google 压缩算法将 LLM 内存降低 6 倍,精度零损失

Google Research 发布了 TurboQuant,一种全新的压缩算法,可将 LLM 键值缓存内存减少 6 倍,并在 NVIDIA H100 GPU 上实现最高 8 倍加速——且精度零损失。该研究将在 ICLR 2026 上发表,直接影响大规模运行 AI Agent 的经济性,大幅降低长上下文推理的内存和计算成本。

TurboQuant 将 KV 缓存压缩至每个值仅 3 比特,无需模型重训练或微调。它通过两项核心技术实现:Quantized Johnson-Lindenstrauss(QJL)用于高效距离保持,PolarQuant 将笛卡尔坐标向量转换为极坐标,利用角度分布的天然集中性消除归一化开销。基准测试显示,在问答、代码生成和摘要任务中均无可测量的精度损失。

对于智能体生态系统,TurboQuant 的影响显著:运行长多轮对话或处理大型代码库的 Agent 现在可以在相同 GPU 内存中容纳更多上下文,实现更长的推理链和更复杂的工具使用序列,而无需按比例增加成本。该算法已在 Hacker News(332 分)和 Product Hunt(182 票)上双双登榜。

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
← 上一篇
Arm AGI CPU:Arm 首款自研芯片,为 AI Agent 时代而生
下一篇 →
last30days-skill:GitHub 日榜第一的 AI Agent 研究技能
← 返回所有文章

评论

加载中...
>_