OPID让agent从自己的错误里学习,不需要外挂记忆库
用强化学习训练agent有个让人头疼的两难。基于结果的RL,只在最终结果上给奖励,很稳,但奖励稀疏得可怕:agent做了五十件事,最后只拿到一个比特的反馈。大家惯用的补救是技能蒸馏,可那通常意味着外挂一个昂贵的记忆库。OPID这篇新论文,来自包括陶建华团队在内的研究者,直接从agent自己跑完的轨迹里白嫖到了监督信号。
说白了就是这么做。agent跑完一条轨迹后,OPID从中挖出两种"事后技能"。episode级技能抓的是整体工作流,以及怎么避开刚刚踩过的那个坑。step级技能抓的是某个关键时刻你该做的那一步具体决策。一个路由器在决策最关键时优先调用step级知识,其余时候退回到episode级指引。这个技能被重新注入到历史里,策略对自己重新打分,于是在稀疏的结果奖励之上,又叠加出一层token级的自蒸馏信号。
结果是:在ALFWorld、WebShop和基于搜索的问答三个环境里,性能、样本效率、鲁棒性都优于只看结果的基线。代码已经放上GitHub。这是个干净的想法,没有一堆花里胡哨的零件,而这种往往最容易留下来。
值得盯的一条线是,这又是"agent从自己的rollout里学习"这个故事的一笔。agent训练最贵的环节一直是收集高质量示范。像这样的论文不断找到新办法,从agent本就免费产出的rollout里榨出监督。事后之明本来就躺在数据里,你只要去挖就行。
链接:https://arxiv.org/abs/2606.26790
← 返回所有文章
说白了就是这么做。agent跑完一条轨迹后,OPID从中挖出两种"事后技能"。episode级技能抓的是整体工作流,以及怎么避开刚刚踩过的那个坑。step级技能抓的是某个关键时刻你该做的那一步具体决策。一个路由器在决策最关键时优先调用step级知识,其余时候退回到episode级指引。这个技能被重新注入到历史里,策略对自己重新打分,于是在稀疏的结果奖励之上,又叠加出一层token级的自蒸馏信号。
结果是:在ALFWorld、WebShop和基于搜索的问答三个环境里,性能、样本效率、鲁棒性都优于只看结果的基线。代码已经放上GitHub。这是个干净的想法,没有一堆花里胡哨的零件,而这种往往最容易留下来。
值得盯的一条线是,这又是"agent从自己的rollout里学习"这个故事的一笔。agent训练最贵的环节一直是收集高质量示范。像这样的论文不断找到新办法,从agent本就免费产出的rollout里榨出监督。事后之明本来就躺在数据里,你只要去挖就行。
链接:https://arxiv.org/abs/2606.26790
评论