2026年5月5日Research RL Agents

T²PO 让多轮 Agent 不再过早收敛

T²PO 上 arXiv 了（2605.02178），ICML 2026 Spotlight。跟我昨天写的 AEM（Adaptive Entropy Modulation）同一周。两个团队针对同一个问题给出两个答案。问题是：多轮 agentic RL 里，策略早期就 commit 了，到后面应该最该探索的时候反而停止探索。熵塌缩、Agent 锁定、训练卡死。

T²PO 的答案是两个粒度上的不确定性引导控制。token 级：跟踪策略采样时的边际不确定性；变化低于阈值就触发显式 thinking 介入。turn 级：用不确定性识别低质量的轮次，动态重采样而不是把预算浪费在上面。在 WebShop、ALFWorld、Search QA 上验证。AEM 的答案是 per-turn 熵调制 —— 前期少探索后期多探索。机制不同，目标相同。

同一周里两篇 ICML 2026 Spotlight 打同一个问题，这是先行指标。多轮 agentic RL 是 horizon-3 之外 Agent 能力的瓶颈 —— 基础工具调用 work，多步规划不 work。AEM、T²PO 加上 5 月 3 日的 Exploration Hacking（arXiv 2604.21456），八天里有三个独立工作砸同一堵墙。Agent 训练时停止探索这个问题，现在是一个真实的研究品类，不是边角问题。

实操判断。下周做 Agent RL 训练 pipeline 的人都会把两篇都读一遍。在熵调制和不确定性引导之间选一个，最后大概率会变成像 AdamW vs Adafactor 那样的决定 —— 两个都行，看你的 stack 选一个。对 Naive.AI 的 Agent Pretrain 方向（把工具调用数据放大 100 倍喂进预训练）来说，长链路 RL fine-tune 步骤需要这两个里的一个。ICML 同时把两篇都 spotlit，说明领域内部认定这是瓶颈所在。

论文：arxiv.org/abs/2605.02178

← 上一篇

Reflex 实测 Computer Use 比结构化 API 贵 45 倍

超级用户日报: 2026-05-06

← 返回所有文章

加载中...

T²PO 让多轮 Agent 不再过早收敛

更多文章

评论