2026年5月30日ResearchAgentsInfrastructure

OmniRetrieval拒绝把一切都塞进向量库

OmniRetrieval(arXiv 2605.29250,HF 61赞)出自KAIST,站到了生产环境里所有RAG栈的反面。它不把表格、知识图谱、文本压进同一个共享embedding空间,而是把自然语言query路由到正确的数据源,然后下发source-native的查询——数据库走SQL,知识图谱走SPARQL或图遍历,文本走语义检索。Retriever不再是一个向量库,是一个dispatcher。

在13个数据集、309个知识库上测,覆盖文本/关系型/图三种结构,全面好于单源baseline。作者是Jinheon Baek、Sung Ju Hwang和六个合作者——就是KAIST这两年一直在retrieval+LLM方向稳步出活的那个组。

脊柱很硬:agent需要查很多源,懒办法是把它们同质化。所有东西都embed一下,指望cosine相似度蒙对,join变成软的。但真正的答案是数据库本来就很擅长当数据库,表格本来就知道怎么以表格的方式被查。胜负手在于教会LLM该跟哪个表面说话、怎么说,而不是逼每个表面都长得像向量库。

这是把tool use认真当回事之后该有的样子。现在大多数agent看到一个知识库就只会「检索top-K切片」,这是在白白扔掉source已经有的结构。OmniRetrieval是早期的一步——agent学会根据知识的形状选对的查询语言,像一个真正的人类分析师那样工作。

论文:https://arxiv.org/abs/2605.29250
← 上一篇
Harness让Claude自己设计Agent团队
下一篇 →
超级用户日报: 2026-05-31
← 返回所有文章

评论

加载中...
>_