2026年5月14日AgentsResearchBenchmark

新论文叫 memory agent 别再「整合」记忆了

arXiv 上新出一篇论文(2605.12978),标题叫 Useful Memories Become Faulty When Continuously Updated by LLMs,Dylan Zhang 团队的工作。整个 agent memory 小产业刚刚收到一个公开的负面结论,而且结论一点不含糊。

核心发现是——当一个基于 LLM 的 agent 持续从过去经验里更新整合后的记忆库,记忆效用先涨后跌,最后甚至跌到比「没有记忆」更差。在 ARC-AGI 上 GPT-5.4 在记忆整合跑久了之后,对自己之前解出来过的题有 54% 答错。原始的 episodic 记忆——就是直接把轨迹存着不整合——反而胜过整合方案。只用 episodic 管理的 agent 准确率是被强制整合的 agent 的两倍。

作者的建议很直白——把原始 episode 当作主要证据,整合这一步要显式 gate 起来,别每次 interaction 之后自动跑。翻成产品话——你 demo 里那句「agent 在经验里学习」可能实际上正在腐蚀 agent 的能力。

这篇论文落在一个已经热了六个月的赛道上——Letta、Mem0、agentmemory、xmemory、YourMemory、Hippo Memory 等等。这些产品默认都做某种形式的记忆整合。Zhang 团队的结论没有杀死这个赛道,但是它在说「每次 session 之后自动整合」这个默认形态选错了。论文指向的设计模式是默认 episodic、整合显式 gating。下次给产品加 memory 功能前值得完整读一下 arXiv 2605.12978。
← 上一篇
MinT 想在一个底模上跑一百万个 LoRA agent
下一篇 →
EVA-Bench 给语音 agent 搭了第一个真正的端到端评测
← 返回所有文章

评论

加载中...
>_