小红书 HyperEyes:agent 工具调用次数砍到原来的 1/5。横着搜,别竖着搜。
小红书刚在 arXiv 放出 HyperEyes。今天 HuggingFace Papers 44 upvote,agent 研究类排在最上面。一句话定位——横着搜,别竖着搜。前提是这样的:多模态搜索 agent 一次查一个实体浪费 round,正确的工作单位应该是一个 turn 内对多个实体并行搜。
数字很具体。HyperEyes-30B 比同体量最强的开源 agent 准确率高 9.9%,平均工具调用 round 是它的 1/5.3。HyperEyes-235B 平均准确率 66.6%,逼近 Gemini-3.1-Pro。还放了一个 IMEB——300 个人工标注的实例,专门量搜索效率,不只是终点准确率。代码在 github.com/Guankai-Li/HyperEyes。
手法是 dual-grained 的 RL 训练。宏观这一层——TRACE,工具使用的参考自适应代价效率奖励,训练过程中把效率目标单调收紧。微观这一层——on-policy distillation,teacher 模型在 agent 失败的 rollout 上注入 token 级别的密集纠正信号。再加一个 unified grounded search 原语,把视觉 grounding 和 retrieval 融成一个原子动作——这样 agent 可以发并发的 search query,而不是串行的。
这事结构上有意思的地方——大部分 agent 论文追准确率,把工具调用当免费的。HyperEyes 把效率列为同等目标。三个 round 拿 60% 准确率的 agent 比 15 个 round 拿 65% 的强,一旦把 token、延迟、工具预算算进去就是这样。IMEB benchmark 把这件事形式化了,后面其他组就得为自己的 tool-call round 数辩护,而不只是准确率。
另一条线也有意思——小红书 Inc 从消费平台一侧出 agent 研究。不是研究院,不是 coding agent 公司。一个 2 亿 MAU 的中文互联网内容平台,现在在发带代码的 RL 训练多模态 agent。agent 研究的产出地正在迁移——不只是实验室,也包括那些自己产品在烧 token 的公司。arxiv.org/abs/2605.07177。
← 返回所有文章
数字很具体。HyperEyes-30B 比同体量最强的开源 agent 准确率高 9.9%,平均工具调用 round 是它的 1/5.3。HyperEyes-235B 平均准确率 66.6%,逼近 Gemini-3.1-Pro。还放了一个 IMEB——300 个人工标注的实例,专门量搜索效率,不只是终点准确率。代码在 github.com/Guankai-Li/HyperEyes。
手法是 dual-grained 的 RL 训练。宏观这一层——TRACE,工具使用的参考自适应代价效率奖励,训练过程中把效率目标单调收紧。微观这一层——on-policy distillation,teacher 模型在 agent 失败的 rollout 上注入 token 级别的密集纠正信号。再加一个 unified grounded search 原语,把视觉 grounding 和 retrieval 融成一个原子动作——这样 agent 可以发并发的 search query,而不是串行的。
这事结构上有意思的地方——大部分 agent 论文追准确率,把工具调用当免费的。HyperEyes 把效率列为同等目标。三个 round 拿 60% 准确率的 agent 比 15 个 round 拿 65% 的强,一旦把 token、延迟、工具预算算进去就是这样。IMEB benchmark 把这件事形式化了,后面其他组就得为自己的 tool-call round 数辩护,而不只是准确率。
另一条线也有意思——小红书 Inc 从消费平台一侧出 agent 研究。不是研究院,不是 coding agent 公司。一个 2 亿 MAU 的中文互联网内容平台,现在在发带代码的 RL 训练多模态 agent。agent 研究的产出地正在迁移——不只是实验室,也包括那些自己产品在烧 token 的公司。arxiv.org/abs/2605.07177。
评论