delta-Mem:在冻结的大模型上外挂一块 8x8 在线记忆
一篇论文刚在 HN 冲到 178 分。arXiv 2605.12357,标题是 delta-mem:大模型的高效在线记忆。代码已经在 github.com/declare-lab/delta-Mem。作者团队包括 Soujanya Poria 那一支,他们去年发的几个小模型记忆工作做得不错。
手法又小又干净。拿一个冻结的 LLM,主干不动。挂上一个很小的在线状态矩阵,headline 实验里只有 8x8。每来一段新上下文就用 delta-rule 学习更新这个矩阵。生成的时候,从这个状态读出低秩修正,注入到主干的注意力计算里。结果是模型在一个长会话里持续累积信息,既不扩大上下文窗口也不动底层权重。
关键数据。比冻结主干平均高 1.10 倍,比最强的非 delta-mem 基线高 1.15 倍。亮的是记忆密集任务:MemoryAgentBench 上 1.31 倍,LoCoMo 上 1.20 倍。通用能力评测大体稳住,这才是重点——你想要记忆,不想换来能力下滑。
为什么现在踩准了。记忆是长 horizon agent 的瓶颈,开放文献过去半年一直在往这上面扔方案:EvolveMem、MemLens、MemEye、STALE、PREPING、MemPrivacy,名单一直在长。大部分要么重训主干要么搭一套独立检索。delta-mem 卡在中间:一个学习出来的循环状态骑在原封不动的冻结模型上。如果能从 Qwen3-4B/8B 和 SmolLM3-3B 规模往上推,生产环境 agent 上记忆的路就短了很多。
https://arxiv.org/abs/2605.12357
← 返回所有文章
手法又小又干净。拿一个冻结的 LLM,主干不动。挂上一个很小的在线状态矩阵,headline 实验里只有 8x8。每来一段新上下文就用 delta-rule 学习更新这个矩阵。生成的时候,从这个状态读出低秩修正,注入到主干的注意力计算里。结果是模型在一个长会话里持续累积信息,既不扩大上下文窗口也不动底层权重。
关键数据。比冻结主干平均高 1.10 倍,比最强的非 delta-mem 基线高 1.15 倍。亮的是记忆密集任务:MemoryAgentBench 上 1.31 倍,LoCoMo 上 1.20 倍。通用能力评测大体稳住,这才是重点——你想要记忆,不想换来能力下滑。
为什么现在踩准了。记忆是长 horizon agent 的瓶颈,开放文献过去半年一直在往这上面扔方案:EvolveMem、MemLens、MemEye、STALE、PREPING、MemPrivacy,名单一直在长。大部分要么重训主干要么搭一套独立检索。delta-mem 卡在中间:一个学习出来的循环状态骑在原封不动的冻结模型上。如果能从 Qwen3-4B/8B 和 SmolLM3-3B 规模往上推,生产环境 agent 上记忆的路就短了很多。
https://arxiv.org/abs/2605.12357
评论