2026年5月12日Research Agents RL

TMAS 用「多 agent 协同」扩 test-time compute：两个记忆库，一个推理回路。

TMAS 昨天在 arXiv 放出来。IQuest Research 加北航，10 位作者。今天 HuggingFace Papers 35 upvote。定位是这样的——目前的 test-time scaling，生成多条轨迹、采样更多、轮次精修，是浪费的，因为轨迹之间几乎不交流。TMAS 把推理组织成「一组特化 agent 之间的协同」，用分层记忆把跨轨迹的连线显式做出来。

架构有两个记忆库。Experience bank 装低层级的、可靠的中间结论和局部反馈——一个轨迹验证过的东西，另一条轨迹可以复用。Guideline bank 装已经探索过的高层级策略，后续 rollout 可以避开冗余推理路径，不去重复。Agent 在精修迭代过程里，对这两个库带结构化引用地跑推理。

训练侧是为这套框架设计的 hybrid reward RL——既保留基础推理能力，也奖励有效利用 bank（别忽视已有信息），还鼓励探索之前没试过的解（别简单抄袭）。在难推理 benchmark 上，论文报告比现有 baseline 有更强的 iterative scaling，hybrid reward 训练进一步提升 scaling 的有效性和稳定性。代码在 github.com/george-QF/TMAS-code。

这事在 test-time scaling 这一档里为什么重要——纯 self-consistency 和 best-of-N 是「算力对质量线性提升然后平台」。结构化方法比如 Tree-of-Thought、Forest-of-Thought、debate-based，从同样预算里挤出更多，但平台位置更高。TMAS 论点是下一格——让 agent 集体通过共享记忆显式协调，而不是通过隐式投票共识。两个记忆库替代一份投票表。

放在今早的 AutoTTS 旁边看——agent 化的 test-time scaling 策略发现——以及过去两周的更大簇。HyperEyes 让工具调用变高效。AutoTTS 把 meta 控制器 agent 化。TMAS 让轨迹之间协同起来。每一个都在同一个 scaling 体制里攻击不同的效率漏点。arxiv.org/abs/2605.10344。

← 上一篇

SLIM 把 agent skill 当活库存管：RL 训练过程中边训边留、淘、扩。

← 返回所有文章

加载中...

TMAS 用「多 agent 协同」扩 test-time compute：两个记忆库，一个推理回路。

更多文章

评论