写代码的 Agent,grep 居然打过了向量搜索
一篇叫《Is Grep All You Need? How Agent Harnesses Reshape Agentic Search》的论文5月14号上 arXiv(2605.15184)。作者拿 LongMemEval 里的 116 道题,在四个生产级 harness 上跑(Chronos、Claude Code、Codex、Gemini CLI),结论很直接:grep 普遍比向量检索准确率高。具体强弱受 harness 和工具调用风格影响,但主结论稳。
这是过去几个月编程 Agent 团队内部争论的论文版。Anthropic 发 Claude Code 时直接把 grep 当一等工具,没有向量库。Codex 也是同方向。Cursor 还在死扛 embedding。论文第二个实验说明了相关内容被埋进有干扰的对话历史里时性能会怎么垮,这其实是长链路 Agent 会话的真实样子。
如果你的编程 Agent 流水线里挂着一个向量数据库只是因为这是 2023 年的默认配置,这篇论文可以转给签账单的那个人。当一个还行的 harness 加 grep 就能在准确率上赢,embedding 存储成本、刷新延迟、索引复杂度就说不过去了。
论文在 arxiv.org/abs/2605.15184。和 Karpathy、Anthropic、Claude Code 团队过去一个季度公开主张的「上下文工程 > RAG」是同一条线。
← 返回所有文章
这是过去几个月编程 Agent 团队内部争论的论文版。Anthropic 发 Claude Code 时直接把 grep 当一等工具,没有向量库。Codex 也是同方向。Cursor 还在死扛 embedding。论文第二个实验说明了相关内容被埋进有干扰的对话历史里时性能会怎么垮,这其实是长链路 Agent 会话的真实样子。
如果你的编程 Agent 流水线里挂着一个向量数据库只是因为这是 2023 年的默认配置,这篇论文可以转给签账单的那个人。当一个还行的 harness 加 grep 就能在准确率上赢,embedding 存储成本、刷新延迟、索引复杂度就说不过去了。
论文在 arxiv.org/abs/2605.15184。和 Karpathy、Anthropic、Claude Code 团队过去一个季度公开主张的「上下文工程 > RAG」是同一条线。
评论