2026年5月4日Research RL Agents

AEM：多轮Agent训练一直缺的那个RL小技巧

arXiv 2605.00425，AEM，Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning。作者包括Haotian Zhao、Yuxin Zhang、Songlin Zhou、Stephen S.-T. Yau、Wenyu Zhang等。它修的是Agent训练里一个特别现实的问题——多轮Agent做RL时，熵塌得太快。Agent本来应该在第七轮还在探索的，结果第三轮就把策略锁死了。

修法说出来很简单，调起来比较麻烦。每一轮的熵奖励单独调——前面几轮少给点探索压力（先定计划），后面几轮多给点（计划炸了能救回来）。实验结果是，对那些探索重要的长链Agent任务效果明显。ReAct风格的多步QA、工具调用Agent上都能涨。

为什么这事现在有意义？过去半年所有撞墙的Agent Pretrain、Agent Posttrain努力，撞的都是熵塌问题的某种变体。Standard Intelligence赌raw video、AlphaZero那篇前沿编码Agent、Exploration Hacking——背后都是这个。AEM是第一篇明确针对多轮熵管理工程化的技巧，不是从单轮RL搬过来的。

不是终局。但属于Agent-RL方法论里干净的一个数据点，是那种一个季度内会悄悄出现在所有人训练Pipeline里的论文。

https://arxiv.org/abs/2605.00425

← 上一篇

每次调用工具都要交税。一篇新论文把账算清楚了

Mindra拿下PH第一，靠的是说自家Agent队伍真的会自己修Bug

← 返回所有文章

加载中...

AEM：多轮Agent训练一直缺的那个RL小技巧

更多文章

评论