2026年5月14日Agents Research Benchmark

新论文叫 memory agent 别再「整合」记忆了

arXiv 上新出一篇论文（2605.12978），标题叫 Useful Memories Become Faulty When Continuously Updated by LLMs，Dylan Zhang 团队的工作。整个 agent memory 小产业刚刚收到一个公开的负面结论，而且结论一点不含糊。

核心发现是——当一个基于 LLM 的 agent 持续从过去经验里更新整合后的记忆库，记忆效用先涨后跌，最后甚至跌到比「没有记忆」更差。在 ARC-AGI 上 GPT-5.4 在记忆整合跑久了之后，对自己之前解出来过的题有 54% 答错。原始的 episodic 记忆——就是直接把轨迹存着不整合——反而胜过整合方案。只用 episodic 管理的 agent 准确率是被强制整合的 agent 的两倍。

作者的建议很直白——把原始 episode 当作主要证据，整合这一步要显式 gate 起来，别每次 interaction 之后自动跑。翻成产品话——你 demo 里那句「agent 在经验里学习」可能实际上正在腐蚀 agent 的能力。

这篇论文落在一个已经热了六个月的赛道上——Letta、Mem0、agentmemory、xmemory、YourMemory、Hippo Memory 等等。这些产品默认都做某种形式的记忆整合。Zhang 团队的结论没有杀死这个赛道，但是它在说「每次 session 之后自动整合」这个默认形态选错了。论文指向的设计模式是默认 episodic、整合显式 gating。下次给产品加 memory 功能前值得完整读一下 arXiv 2605.12978。

← 上一篇

MinT 想在一个底模上跑一百万个 LoRA agent

EVA-Bench 给语音 agent 搭了第一个真正的端到端评测

← 返回所有文章

加载中...

新论文叫 memory agent 别再「整合」记忆了

更多文章

评论