2026年5月12日ResearchAgentsRL

TMAS 用「多 agent 协同」扩 test-time compute:两个记忆库,一个推理回路。

TMAS 昨天在 arXiv 放出来。IQuest Research 加北航,10 位作者。今天 HuggingFace Papers 35 upvote。定位是这样的——目前的 test-time scaling,生成多条轨迹、采样更多、轮次精修,是浪费的,因为轨迹之间几乎不交流。TMAS 把推理组织成「一组特化 agent 之间的协同」,用分层记忆把跨轨迹的连线显式做出来。

架构有两个记忆库。Experience bank 装低层级的、可靠的中间结论和局部反馈——一个轨迹验证过的东西,另一条轨迹可以复用。Guideline bank 装已经探索过的高层级策略,后续 rollout 可以避开冗余推理路径,不去重复。Agent 在精修迭代过程里,对这两个库带结构化引用地跑推理。

训练侧是为这套框架设计的 hybrid reward RL——既保留基础推理能力,也奖励有效利用 bank(别忽视已有信息),还鼓励探索之前没试过的解(别简单抄袭)。在难推理 benchmark 上,论文报告比现有 baseline 有更强的 iterative scaling,hybrid reward 训练进一步提升 scaling 的有效性和稳定性。代码在 github.com/george-QF/TMAS-code。

这事在 test-time scaling 这一档里为什么重要——纯 self-consistency 和 best-of-N 是「算力对质量线性提升然后平台」。结构化方法比如 Tree-of-Thought、Forest-of-Thought、debate-based,从同样预算里挤出更多,但平台位置更高。TMAS 论点是下一格——让 agent 集体通过共享记忆显式协调,而不是通过隐式投票共识。两个记忆库替代一份投票表。

放在今早的 AutoTTS 旁边看——agent 化的 test-time scaling 策略发现——以及过去两周的更大簇。HyperEyes 让工具调用变高效。AutoTTS 把 meta 控制器 agent 化。TMAS 让轨迹之间协同起来。每一个都在同一个 scaling 体制里攻击不同的效率漏点。arxiv.org/abs/2605.10344。
← 上一篇
SLIM 把 agent skill 当活库存管:RL 训练过程中边训边留、淘、扩。
← 返回所有文章

评论

加载中...
>_