EverMind MSA:通过记忆稀疏注意力实现 LLM 的一亿 Token 长期记忆
EverMind AI 开源了 MSA(Memory Sparse Attention),一个端到端可训练的稀疏记忆框架,使 LLM 能将上下文扩展到一亿 token。该项目在 Hacker News 上获得 56 分,代码已在 GitHub 开源。
MSA 引入四项关键创新:记忆稀疏注意力——一种可微分的基于内容的稀疏化机制,动态选择最相关的记忆子集;Document-wise RoPE——将文档内部相对位置与全局记忆位置解耦;KV Cache 压缩——仅需两块 A800 GPU 即可实现一亿 token 推理;Memory Interleave——允许多轮「生成式检索→上下文扩展」循环,支持复杂的多跳推理。
在长上下文问答和大海捞针(Needle-in-a-Haystack)基准测试中,MSA 超越了同主干 RAG 系统、最佳 RAG 组合方案和领先的长上下文模型。在 16K 到一亿 token 的前所未有的范围内,MSA 性能下降不到 9%。
对于智能体生态系统而言,高效的长期记忆是关键基础设施问题。执行多日任务、跨会话维护用户上下文或处理大型代码库的智能体需要超越典型上下文窗口的记忆系统。MSA 在普通硬件上处理一亿 token 的能力使这一需求变得切实可行。
GitHub:https://github.com/EverMind-AI/MSA
主页:https://evermind.ai/
← 返回所有文章
MSA 引入四项关键创新:记忆稀疏注意力——一种可微分的基于内容的稀疏化机制,动态选择最相关的记忆子集;Document-wise RoPE——将文档内部相对位置与全局记忆位置解耦;KV Cache 压缩——仅需两块 A800 GPU 即可实现一亿 token 推理;Memory Interleave——允许多轮「生成式检索→上下文扩展」循环,支持复杂的多跳推理。
在长上下文问答和大海捞针(Needle-in-a-Haystack)基准测试中,MSA 超越了同主干 RAG 系统、最佳 RAG 组合方案和领先的长上下文模型。在 16K 到一亿 token 的前所未有的范围内,MSA 性能下降不到 9%。
对于智能体生态系统而言,高效的长期记忆是关键基础设施问题。执行多日任务、跨会话维护用户上下文或处理大型代码库的智能体需要超越典型上下文窗口的记忆系统。MSA 在普通硬件上处理一亿 token 的能力使这一需求变得切实可行。
GitHub:https://github.com/EverMind-AI/MSA
主页:https://evermind.ai/
评论