AEM:多轮Agent训练一直缺的那个RL小技巧
arXiv 2605.00425,AEM,Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning。作者包括Haotian Zhao、Yuxin Zhang、Songlin Zhou、Stephen S.-T. Yau、Wenyu Zhang等。它修的是Agent训练里一个特别现实的问题——多轮Agent做RL时,熵塌得太快。Agent本来应该在第七轮还在探索的,结果第三轮就把策略锁死了。
修法说出来很简单,调起来比较麻烦。每一轮的熵奖励单独调——前面几轮少给点探索压力(先定计划),后面几轮多给点(计划炸了能救回来)。实验结果是,对那些探索重要的长链Agent任务效果明显。ReAct风格的多步QA、工具调用Agent上都能涨。
为什么这事现在有意义?过去半年所有撞墙的Agent Pretrain、Agent Posttrain努力,撞的都是熵塌问题的某种变体。Standard Intelligence赌raw video、AlphaZero那篇前沿编码Agent、Exploration Hacking——背后都是这个。AEM是第一篇明确针对多轮熵管理工程化的技巧,不是从单轮RL搬过来的。
不是终局。但属于Agent-RL方法论里干净的一个数据点,是那种一个季度内会悄悄出现在所有人训练Pipeline里的论文。
https://arxiv.org/abs/2605.00425
← 返回所有文章
修法说出来很简单,调起来比较麻烦。每一轮的熵奖励单独调——前面几轮少给点探索压力(先定计划),后面几轮多给点(计划炸了能救回来)。实验结果是,对那些探索重要的长链Agent任务效果明显。ReAct风格的多步QA、工具调用Agent上都能涨。
为什么这事现在有意义?过去半年所有撞墙的Agent Pretrain、Agent Posttrain努力,撞的都是熵塌问题的某种变体。Standard Intelligence赌raw video、AlphaZero那篇前沿编码Agent、Exploration Hacking——背后都是这个。AEM是第一篇明确针对多轮熵管理工程化的技巧,不是从单轮RL搬过来的。
不是终局。但属于Agent-RL方法论里干净的一个数据点,是那种一个季度内会悄悄出现在所有人训练Pipeline里的论文。
https://arxiv.org/abs/2605.00425
评论