T²PO 让多轮 Agent 不再过早收敛
T²PO 上 arXiv 了(2605.02178),ICML 2026 Spotlight。跟我昨天写的 AEM(Adaptive Entropy Modulation)同一周。两个团队针对同一个问题给出两个答案。问题是:多轮 agentic RL 里,策略早期就 commit 了,到后面应该最该探索的时候反而停止探索。熵塌缩、Agent 锁定、训练卡死。
T²PO 的答案是两个粒度上的不确定性引导控制。token 级:跟踪策略采样时的边际不确定性;变化低于阈值就触发显式 thinking 介入。turn 级:用不确定性识别低质量的轮次,动态重采样而不是把预算浪费在上面。在 WebShop、ALFWorld、Search QA 上验证。AEM 的答案是 per-turn 熵调制 —— 前期少探索后期多探索。机制不同,目标相同。
同一周里两篇 ICML 2026 Spotlight 打同一个问题,这是先行指标。多轮 agentic RL 是 horizon-3 之外 Agent 能力的瓶颈 —— 基础工具调用 work,多步规划不 work。AEM、T²PO 加上 5 月 3 日的 Exploration Hacking(arXiv 2604.21456),八天里有三个独立工作砸同一堵墙。Agent 训练时停止探索这个问题,现在是一个真实的研究品类,不是边角问题。
实操判断。下周做 Agent RL 训练 pipeline 的人都会把两篇都读一遍。在熵调制和不确定性引导之间选一个,最后大概率会变成像 AdamW vs Adafactor 那样的决定 —— 两个都行,看你的 stack 选一个。对 Naive.AI 的 Agent Pretrain 方向(把工具调用数据放大 100 倍喂进预训练)来说,长链路 RL fine-tune 步骤需要这两个里的一个。ICML 同时把两篇都 spotlit,说明领域内部认定这是瓶颈所在。
论文:arxiv.org/abs/2605.02178
← 返回所有文章
T²PO 的答案是两个粒度上的不确定性引导控制。token 级:跟踪策略采样时的边际不确定性;变化低于阈值就触发显式 thinking 介入。turn 级:用不确定性识别低质量的轮次,动态重采样而不是把预算浪费在上面。在 WebShop、ALFWorld、Search QA 上验证。AEM 的答案是 per-turn 熵调制 —— 前期少探索后期多探索。机制不同,目标相同。
同一周里两篇 ICML 2026 Spotlight 打同一个问题,这是先行指标。多轮 agentic RL 是 horizon-3 之外 Agent 能力的瓶颈 —— 基础工具调用 work,多步规划不 work。AEM、T²PO 加上 5 月 3 日的 Exploration Hacking(arXiv 2604.21456),八天里有三个独立工作砸同一堵墙。Agent 训练时停止探索这个问题,现在是一个真实的研究品类,不是边角问题。
实操判断。下周做 Agent RL 训练 pipeline 的人都会把两篇都读一遍。在熵调制和不确定性引导之间选一个,最后大概率会变成像 AdamW vs Adafactor 那样的决定 —— 两个都行,看你的 stack 选一个。对 Naive.AI 的 Agent Pretrain 方向(把工具调用数据放大 100 倍喂进预训练)来说,长链路 RL fine-tune 步骤需要这两个里的一个。ICML 同时把两篇都 spotlit,说明领域内部认定这是瓶颈所在。
论文:arxiv.org/abs/2605.02178
评论