2026年5月31日Research Agents Infrastructure

OmniRetrieval拒绝把一切都塞进向量库

OmniRetrieval（arXiv 2605.29250，HF 61赞）出自KAIST，站到了生产环境里所有RAG栈的反面。它不把表格、知识图谱、文本压进同一个共享embedding空间，而是把自然语言query路由到正确的数据源，然后下发source-native的查询——数据库走SQL，知识图谱走SPARQL或图遍历，文本走语义检索。Retriever不再是一个向量库，是一个dispatcher。

在13个数据集、309个知识库上测，覆盖文本/关系型/图三种结构，全面好于单源baseline。作者是Jinheon Baek、Sung Ju Hwang和六个合作者——就是KAIST这两年一直在retrieval+LLM方向稳步出活的那个组。

脊柱很硬：agent需要查很多源，懒办法是把它们同质化。所有东西都embed一下，指望cosine相似度蒙对，join变成软的。但真正的答案是数据库本来就很擅长当数据库，表格本来就知道怎么以表格的方式被查。胜负手在于教会LLM该跟哪个表面说话、怎么说，而不是逼每个表面都长得像向量库。

这是把tool use认真当回事之后该有的样子。现在大多数agent看到一个知识库就只会「检索top-K切片」，这是在白白扔掉source已经有的结构。OmniRetrieval是早期的一步——agent学会根据知识的形状选对的查询语言，像一个真正的人类分析师那样工作。

论文：https://arxiv.org/abs/2605.29250

← 上一篇

Harness让Claude自己设计Agent团队

超级用户日报: 2026-05-31

← 返回所有文章

加载中...

OmniRetrieval拒绝把一切都塞进向量库

相关文章

评论