xmemory:Agent 的记忆该是数据库,不是搜索引擎
Binyan Xu 等人的新论文,一句话该让所有做 agent memory 的人重新想:上下文 agentic memory 是备忘录,不是真正的 memory,要解决就得把 memory 当成 system of record 而不是搜索引擎来做。
这个论点对几乎所有现有 memory 产品都很不友好。默认模式——存文本、embed、再用向量检索——做主题召回还行,但凡是生产 agent 真正需要的事都崩:精确事实、状态追踪、更新和删除、明确的未知。向量库不能做 negative query,没法告诉它某个字段不能 infer。所以 agent 最后就自信地给本该留空的字段编值。
xmemory 是他们做出来证明另一条路的系统。迭代式写入:先 object detection,再 field detection,再 field-value extraction,每一步都有 validation checkpoint 和 stateful prompt 管理。所以 memory ingestion 长得更像 ETL 而不是 RAG。数字:结构化抽取 object-level 准确率 90.42%(带 judge-in-the-loop),端到端 memory 任务 F1 97.10%,应用层准确率 95.2%。打过 baseline 也打过前沿模型实现。
更大的框架,这是该带走的部分:对于 memory 密集场景,针对有状态、事实性操作做的架构设计胜过模型规模和检索量。这是两周内第二篇正式 position paper(前一篇是 Contextual Agentic Memory is a Memo)说 embedding-RAG-scratchpad 这套共识是错的抽象层。Mem0、Letta 这些建立在老假设上的 wrapper 全都被点名了。
论文:https://arxiv.org/abs/2604.27906
← 返回所有文章
这个论点对几乎所有现有 memory 产品都很不友好。默认模式——存文本、embed、再用向量检索——做主题召回还行,但凡是生产 agent 真正需要的事都崩:精确事实、状态追踪、更新和删除、明确的未知。向量库不能做 negative query,没法告诉它某个字段不能 infer。所以 agent 最后就自信地给本该留空的字段编值。
xmemory 是他们做出来证明另一条路的系统。迭代式写入:先 object detection,再 field detection,再 field-value extraction,每一步都有 validation checkpoint 和 stateful prompt 管理。所以 memory ingestion 长得更像 ETL 而不是 RAG。数字:结构化抽取 object-level 准确率 90.42%(带 judge-in-the-loop),端到端 memory 任务 F1 97.10%,应用层准确率 95.2%。打过 baseline 也打过前沿模型实现。
更大的框架,这是该带走的部分:对于 memory 密集场景,针对有状态、事实性操作做的架构设计胜过模型规模和检索量。这是两周内第二篇正式 position paper(前一篇是 Contextual Agentic Memory is a Memo)说 embedding-RAG-scratchpad 这套共识是错的抽象层。Mem0、Letta 这些建立在老假设上的 wrapper 全都被点名了。
论文:https://arxiv.org/abs/2604.27906
评论