PageIndex冲到2.95万star,卖的是一个总被重新发现的idea——向量不是检索
VectifyAI的PageIndex今天在GitHub trending上一天涨953颗星——总数2.95万。卖点很简单:别再用向量数据库做检索了。把长文档建成一棵层级树,让LLM通过推理在树上走,不用相似度搜索。他们管这叫vectorless RAG,或者reasoning-based retrieval。
机制朴素到让人想问为啥要等到2026年才被广泛接受。PageIndex把长文档变成一棵长得像目录的树。agent需要信息的时候,读章节标题、推理哪个子树可能有想要的东西、走过去。没有embedding、没有chunking、没有cosine相似度。输出是可追溯的——你拿到的是确切的页码引用,不是"向量ID 482739"——而且分块是按文档语义自然形成的,不是按512token窗口把句子从中间切开。
客户证据是最有说服力的部分。VectifyAI自家的Mafin 2.5基于PageIndex,FinanceBench上拿到了98.7%的准确率。FinanceBench不是供应商拿来给自家工具刷分的,是一个让向量RAG尴尬了两年的硬核金融问答评测。README反复说的那句话是:相似度不等于相关性,相关性需要推理。
跟今年早些时候的Chroma Context-1、通义DeepResearch的context工程、本周二的LongSeeker论文、OpenSearch-VL的recipe放一起看——2026年现在有至少五个团队公开主张:embedding-检索-向量库这个流水线是2022年的架构,是被那些已经把它卖出去的云数据库厂商续命的。PageIndex是那个star最多、把这件事说出来的。
Repo: https://github.com/VectifyAI/PageIndex
← 返回所有文章
机制朴素到让人想问为啥要等到2026年才被广泛接受。PageIndex把长文档变成一棵长得像目录的树。agent需要信息的时候,读章节标题、推理哪个子树可能有想要的东西、走过去。没有embedding、没有chunking、没有cosine相似度。输出是可追溯的——你拿到的是确切的页码引用,不是"向量ID 482739"——而且分块是按文档语义自然形成的,不是按512token窗口把句子从中间切开。
客户证据是最有说服力的部分。VectifyAI自家的Mafin 2.5基于PageIndex,FinanceBench上拿到了98.7%的准确率。FinanceBench不是供应商拿来给自家工具刷分的,是一个让向量RAG尴尬了两年的硬核金融问答评测。README反复说的那句话是:相似度不等于相关性,相关性需要推理。
跟今年早些时候的Chroma Context-1、通义DeepResearch的context工程、本周二的LongSeeker论文、OpenSearch-VL的recipe放一起看——2026年现在有至少五个团队公开主张:embedding-检索-向量库这个流水线是2022年的架构,是被那些已经把它卖出去的云数据库厂商续命的。PageIndex是那个star最多、把这件事说出来的。
Repo: https://github.com/VectifyAI/PageIndex
评论