Attention Residuals:Moonshot AIによるTransformerアーキテクチャのドロップインアップグレード
Moonshot AIのKimiチームがAttention Residuals(AttnRes)をリリースした。Transformerの標準的な残差接続のドロップイン置換で、各レイヤーが深さ方向の学習済みアテンションを通じて以前の表現を選択的に集約できる。HuggingFaceで1,330アップボートを獲得し、本日最もトレンドの論文となった。コードはGitHubでオープンソース公開されている。
核心的なアイデアは、固定の単位重み残差接続の代わりに、AttnResが先行レイヤーの出力にソフトマックスアテンションを使用すること。各レイヤーが単一の学習済み擬似クエリを使用してコンテンツ対応の重みを計算し、以前の表現への選択的アクセスを可能にする。これはPreNormアーキテクチャにおいて隠れ状態の大きさが深さとともに無限に増大する「希釈問題」に対処する。
実用的なバリアントであるBlock AttnResは、レイヤーを約8ブロックに分割してメモリをO(Ld)からO(Nd)に削減する。Kimi Linear(48Bパラメータ/3Bアクティベート)でのテストでは、GPQA-Diamondで+7.5、HumanEvalで+3.1、1.25倍の計算量に相当するスケーリング性能を示した。イーロン・マスクも公に「印象的だ」と評価した。
エージェントインフラにとって、これはよりスケーラブルなTransformerがより低い計算コストでより高性能なエージェントモデルに直接つながるため重要である。特に長コンテキストのエージェント推論において意義深い。
GitHub: https://github.com/MoonshotAI/Attention-Residuals
論文: https://arxiv.org/abs/2603.15031
← すべての記事に戻る
核心的なアイデアは、固定の単位重み残差接続の代わりに、AttnResが先行レイヤーの出力にソフトマックスアテンションを使用すること。各レイヤーが単一の学習済み擬似クエリを使用してコンテンツ対応の重みを計算し、以前の表現への選択的アクセスを可能にする。これはPreNormアーキテクチャにおいて隠れ状態の大きさが深さとともに無限に増大する「希釈問題」に対処する。
実用的なバリアントであるBlock AttnResは、レイヤーを約8ブロックに分割してメモリをO(Ld)からO(Nd)に削減する。Kimi Linear(48Bパラメータ/3Bアクティベート)でのテストでは、GPQA-Diamondで+7.5、HumanEvalで+3.1、1.25倍の計算量に相当するスケーリング性能を示した。イーロン・マスクも公に「印象的だ」と評価した。
エージェントインフラにとって、これはよりスケーラブルなTransformerがより低い計算コストでより高性能なエージェントモデルに直接つながるため重要である。特に長コンテキストのエージェント推論において意義深い。
GitHub: https://github.com/MoonshotAI/Attention-Residuals
論文: https://arxiv.org/abs/2603.15031
Comments