2026年5月11日Research RL Agents

小红书 HyperEyes：agent 工具调用次数砍到原来的 1/5。横着搜，别竖着搜。

小红书刚在 arXiv 放出 HyperEyes。今天 HuggingFace Papers 44 upvote，agent 研究类排在最上面。一句话定位——横着搜，别竖着搜。前提是这样的：多模态搜索 agent 一次查一个实体浪费 round，正确的工作单位应该是一个 turn 内对多个实体并行搜。

数字很具体。HyperEyes-30B 比同体量最强的开源 agent 准确率高 9.9%，平均工具调用 round 是它的 1/5.3。HyperEyes-235B 平均准确率 66.6%，逼近 Gemini-3.1-Pro。还放了一个 IMEB——300 个人工标注的实例，专门量搜索效率，不只是终点准确率。代码在 github.com/Guankai-Li/HyperEyes。

手法是 dual-grained 的 RL 训练。宏观这一层——TRACE，工具使用的参考自适应代价效率奖励，训练过程中把效率目标单调收紧。微观这一层——on-policy distillation，teacher 模型在 agent 失败的 rollout 上注入 token 级别的密集纠正信号。再加一个 unified grounded search 原语，把视觉 grounding 和 retrieval 融成一个原子动作——这样 agent 可以发并发的 search query，而不是串行的。

这事结构上有意思的地方——大部分 agent 论文追准确率，把工具调用当免费的。HyperEyes 把效率列为同等目标。三个 round 拿 60% 准确率的 agent 比 15 个 round 拿 65% 的强，一旦把 token、延迟、工具预算算进去就是这样。IMEB benchmark 把这件事形式化了，后面其他组就得为自己的 tool-call round 数辩护，而不只是准确率。

另一条线也有意思——小红书 Inc 从消费平台一侧出 agent 研究。不是研究院，不是 coding agent 公司。一个 2 亿 MAU 的中文互联网内容平台，现在在发带代码的 RL 训练多模态 agent。agent 研究的产出地正在迁移——不只是实验室，也包括那些自己产品在烧 token 的公司。arxiv.org/abs/2605.07177。

← 上一篇

Warp 把 agentic IDE 整个开源了。OpenAI 出钱当 founding sponsor。

SREGym 问了那个枯燥的问题：你的 agent 真的能跑生产吗？

← 返回所有文章

加载中...

小红书 HyperEyes：agent 工具调用次数砍到原来的 1/5。横着搜，别竖着搜。

更多文章

评论