MiniMax 稀疏注意力:M3 怎么读完一百万 token
MiniMax 公布了 M3 模型背后的注意力架构,这是目前对一个老问题最干净的回答。softmax 注意力的开销是平方级增长,所以百万 token 上下文在部署规模上根本养不起。可 agent 工作流、仓库级代码推理、持久记忆,全都要模型一次性盯住几十万甚至上百万 token。数学说不行,MiniMax 稀疏注意力说也许行。
说白了就一句话:与其全都看,不如把上下文切成块打分,只看重要的块。MSA 架在分组查询注意力之上,加一个轻量的索引分支给 key-value 块打分,给每个查询组独立挑出 top-k 子集,再由主分支只在挑中的那些块上做精确注意力。每个组各取所需地稀疏检索,但执行还是块级的,GPU 就不难受。
回报是实打实的数字。一个 109B 的模型盯住完整一百万 token,每 token 注意力计算砍掉 28.4 倍。配上定制 CUDA kernel,H800 上预填快 14.2 倍、解码快 7.6 倍。而且设计刻意做得简单,能在各种 GPU 上跑,而不是非得用什么奇异硬件。
这就是让那些 agent 梦想真正跑得起来的、不起眼的基础设施。人人都想要记忆长、能通读整个代码库的 agent,没人想为此付平方级的注意力账单。MSA 现在挂在 HuggingFace 论文榜第二,赌的是通往长上下文 agent 的路是更聪明的稀疏,而不只是更大的机器。论文在 arxiv.org/abs/2606.13392。
← 返回所有文章
说白了就一句话:与其全都看,不如把上下文切成块打分,只看重要的块。MSA 架在分组查询注意力之上,加一个轻量的索引分支给 key-value 块打分,给每个查询组独立挑出 top-k 子集,再由主分支只在挑中的那些块上做精确注意力。每个组各取所需地稀疏检索,但执行还是块级的,GPU 就不难受。
回报是实打实的数字。一个 109B 的模型盯住完整一百万 token,每 token 注意力计算砍掉 28.4 倍。配上定制 CUDA kernel,H800 上预填快 14.2 倍、解码快 7.6 倍。而且设计刻意做得简单,能在各种 GPU 上跑,而不是非得用什么奇异硬件。
这就是让那些 agent 梦想真正跑得起来的、不起眼的基础设施。人人都想要记忆长、能通读整个代码库的 agent,没人想为此付平方级的注意力账单。MSA 现在挂在 HuggingFace 论文榜第二,赌的是通往长上下文 agent 的路是更聪明的稀疏,而不只是更大的机器。论文在 arxiv.org/abs/2606.13392。
评论