EvolveMem 让 agent 记忆自己改自己的配置
EvolveMem 5/13 上 arXiv(2605.13941)。UNC + Berkeley + Santa Cruz 的作者。代码在 github.com/aiming-lab/SimpleMem。架构一句话说清——别在部署时把记忆系统的配置冻死,给 agent 一个诊断循环,自己读自己的失败日志、定位根因、给自己提配置修改。
机器分两块。一个 LLM 驱动的诊断模块读最近的失败案例,把它们归因到具体的子系统——检索阈值、总结激进度、索引粒度等等——写出一个建议改的配置。一个 meta-analyzer 应用这个改动,跑回归检查,发现性能掉了就回滚,发现卡在局部最优就跳出去。
数字。LoCoMo 基准——比最强 baseline 相对提升 25.7%,比最弱 baseline 提升 78%。MemBench——比最强 baseline 相对提升 18.9%。还有一个有意思的——在一个 benchmark 上学到的配置正向迁移到另一个 benchmark,说明系统学到的是通用记忆管理启发式,不是某个 benchmark 的过拟合。
为什么这周特别要看这篇——昨天的 Useful Memories 那篇说默认 consolidation 会拖累能力、建议显式 gating。EvolveMem 正是对那个批评的回应。同一家族的记忆系统,但不是静态默认值,而是带回滚跟卡顿守卫的自我调参。这是 memory 产品集群(Letta、Mem0、agentmemory、xmemory、KodHau、Hippo Memory)一直在靠近的设计模式——显式 gating,不是隐式 consolidation。论文 arXiv 2605.13941。
← 返回所有文章
机器分两块。一个 LLM 驱动的诊断模块读最近的失败案例,把它们归因到具体的子系统——检索阈值、总结激进度、索引粒度等等——写出一个建议改的配置。一个 meta-analyzer 应用这个改动,跑回归检查,发现性能掉了就回滚,发现卡在局部最优就跳出去。
数字。LoCoMo 基准——比最强 baseline 相对提升 25.7%,比最弱 baseline 提升 78%。MemBench——比最强 baseline 相对提升 18.9%。还有一个有意思的——在一个 benchmark 上学到的配置正向迁移到另一个 benchmark,说明系统学到的是通用记忆管理启发式,不是某个 benchmark 的过拟合。
为什么这周特别要看这篇——昨天的 Useful Memories 那篇说默认 consolidation 会拖累能力、建议显式 gating。EvolveMem 正是对那个批评的回应。同一家族的记忆系统,但不是静态默认值,而是带回滚跟卡顿守卫的自我调参。这是 memory 产品集群(Letta、Mem0、agentmemory、xmemory、KodHau、Hippo Memory)一直在靠近的设计模式——显式 gating,不是隐式 consolidation。论文 arXiv 2605.13941。
评论