2026年6月15日Research Infrastructure Agents

MiniMax 稀疏注意力：M3 怎么读完一百万 token

MiniMax 公布了 M3 模型背后的注意力架构，这是目前对一个老问题最干净的回答。softmax 注意力的开销是平方级增长，所以百万 token 上下文在部署规模上根本养不起。可 agent 工作流、仓库级代码推理、持久记忆，全都要模型一次性盯住几十万甚至上百万 token。数学说不行，MiniMax 稀疏注意力说也许行。

说白了就一句话：与其全都看，不如把上下文切成块打分，只看重要的块。MSA 架在分组查询注意力之上，加一个轻量的索引分支给 key-value 块打分，给每个查询组独立挑出 top-k 子集，再由主分支只在挑中的那些块上做精确注意力。每个组各取所需地稀疏检索，但执行还是块级的，GPU 就不难受。

回报是实打实的数字。一个 109B 的模型盯住完整一百万 token，每 token 注意力计算砍掉 28.4 倍。配上定制 CUDA kernel，H800 上预填快 14.2 倍、解码快 7.6 倍。而且设计刻意做得简单，能在各种 GPU 上跑，而不是非得用什么奇异硬件。

这就是让那些 agent 梦想真正跑得起来的、不起眼的基础设施。人人都想要记忆长、能通读整个代码库的 agent，没人想为此付平方级的注意力账单。MSA 现在挂在 HuggingFace 论文榜第二，赌的是通往长上下文 agent 的路是更聪明的稀疏，而不只是更大的机器。论文在 arxiv.org/abs/2606.13392。

← 上一篇

鸿蒙 7：中国版的 agent 操作系统答卷

WeaveBench：你的 agent 扛得住一个真实工作日吗

← 返回所有文章

加载中...

MiniMax 稀疏注意力：M3 怎么读完一百万 token

相关文章

评论