Attention Residuals:Moonshot AI 开源的 Transformer 架构升级方案
Moonshot AI 的 Kimi 团队发布了 Attention Residuals(AttnRes),这是标准 Transformer 残差连接的即插即用替代方案,使每一层能够通过学习到的深度注意力机制选择性地聚合先前层的表示。该论文在 HuggingFace 上获得1,330票赞——是当日最热论文——代码已在 GitHub 开源。
核心思想:不再使用固定单位权重的残差连接,AttnRes 对前序层输出使用 softmax 注意力。每一层使用单个学习到的伪查询(pseudo-query)计算内容感知权重,实现对先前表示的选择性访问。这解决了 PreNorm 架构中隐藏状态幅度随深度无限增长的「稀释问题」。
实用变体 Block AttnRes 将层划分为约8个块,将内存需求从 O(Ld) 降至 O(Nd)。在 Kimi Linear(480亿参数/30亿激活)上的测试显示 GPQA-Diamond 提升7.5分,HumanEval 提升3.1分,缩放性能相当于1.25倍的计算量。马斯克公开称赞该工作「令人印象深刻」。
对代理基础设施而言,这很重要——更好的 Transformer 缩放能力直接意味着在更低计算成本下获得更强大的代理模型,尤其是对长上下文代理推理。
GitHub:https://github.com/MoonshotAI/Attention-Residuals
论文:https://arxiv.org/abs/2603.15031
← 返回所有文章
核心思想:不再使用固定单位权重的残差连接,AttnRes 对前序层输出使用 softmax 注意力。每一层使用单个学习到的伪查询(pseudo-query)计算内容感知权重,实现对先前表示的选择性访问。这解决了 PreNorm 架构中隐藏状态幅度随深度无限增长的「稀释问题」。
实用变体 Block AttnRes 将层划分为约8个块,将内存需求从 O(Ld) 降至 O(Nd)。在 Kimi Linear(480亿参数/30亿激活)上的测试显示 GPQA-Diamond 提升7.5分,HumanEval 提升3.1分,缩放性能相当于1.25倍的计算量。马斯克公开称赞该工作「令人印象深刻」。
对代理基础设施而言,这很重要——更好的 Transformer 缩放能力直接意味着在更低计算成本下获得更强大的代理模型,尤其是对长上下文代理推理。
GitHub:https://github.com/MoonshotAI/Attention-Residuals
论文:https://arxiv.org/abs/2603.15031