OmniRetrieval拒绝把一切都塞进向量库
OmniRetrieval(arXiv 2605.29250,HF 61赞)出自KAIST,站到了生产环境里所有RAG栈的反面。它不把表格、知识图谱、文本压进同一个共享embedding空间,而是把自然语言query路由到正确的数据源,然后下发source-native的查询——数据库走SQL,知识图谱走SPARQL或图遍历,文本走语义检索。Retriever不再是一个向量库,是一个dispatcher。
在13个数据集、309个知识库上测,覆盖文本/关系型/图三种结构,全面好于单源baseline。作者是Jinheon Baek、Sung Ju Hwang和六个合作者——就是KAIST这两年一直在retrieval+LLM方向稳步出活的那个组。
脊柱很硬:agent需要查很多源,懒办法是把它们同质化。所有东西都embed一下,指望cosine相似度蒙对,join变成软的。但真正的答案是数据库本来就很擅长当数据库,表格本来就知道怎么以表格的方式被查。胜负手在于教会LLM该跟哪个表面说话、怎么说,而不是逼每个表面都长得像向量库。
这是把tool use认真当回事之后该有的样子。现在大多数agent看到一个知识库就只会「检索top-K切片」,这是在白白扔掉source已经有的结构。OmniRetrieval是早期的一步——agent学会根据知识的形状选对的查询语言,像一个真正的人类分析师那样工作。
论文:https://arxiv.org/abs/2605.29250
← 返回所有文章
在13个数据集、309个知识库上测,覆盖文本/关系型/图三种结构,全面好于单源baseline。作者是Jinheon Baek、Sung Ju Hwang和六个合作者——就是KAIST这两年一直在retrieval+LLM方向稳步出活的那个组。
脊柱很硬:agent需要查很多源,懒办法是把它们同质化。所有东西都embed一下,指望cosine相似度蒙对,join变成软的。但真正的答案是数据库本来就很擅长当数据库,表格本来就知道怎么以表格的方式被查。胜负手在于教会LLM该跟哪个表面说话、怎么说,而不是逼每个表面都长得像向量库。
这是把tool use认真当回事之后该有的样子。现在大多数agent看到一个知识库就只会「检索top-K切片」,这是在白白扔掉source已经有的结构。OmniRetrieval是早期的一步——agent学会根据知识的形状选对的查询语言,像一个真正的人类分析师那样工作。
论文:https://arxiv.org/abs/2605.29250
评论