2026年6月26日Research RL Skills

OPID让agent从自己的错误里学习，不需要外挂记忆库

用强化学习训练agent有个让人头疼的两难。基于结果的RL，只在最终结果上给奖励，很稳，但奖励稀疏得可怕：agent做了五十件事，最后只拿到一个比特的反馈。大家惯用的补救是技能蒸馏，可那通常意味着外挂一个昂贵的记忆库。OPID这篇新论文，来自包括陶建华团队在内的研究者，直接从agent自己跑完的轨迹里白嫖到了监督信号。

说白了就是这么做。agent跑完一条轨迹后，OPID从中挖出两种"事后技能"。episode级技能抓的是整体工作流，以及怎么避开刚刚踩过的那个坑。step级技能抓的是某个关键时刻你该做的那一步具体决策。一个路由器在决策最关键时优先调用step级知识，其余时候退回到episode级指引。这个技能被重新注入到历史里，策略对自己重新打分，于是在稀疏的结果奖励之上，又叠加出一层token级的自蒸馏信号。

结果是：在ALFWorld、WebShop和基于搜索的问答三个环境里，性能、样本效率、鲁棒性都优于只看结果的基线。代码已经放上GitHub。这是个干净的想法，没有一堆花里胡哨的零件，而这种往往最容易留下来。

值得盯的一条线是，这又是"agent从自己的rollout里学习"这个故事的一笔。agent训练最贵的环节一直是收集高质量示范。像这样的论文不断找到新办法，从agent本就免费产出的rollout里榨出监督。事后之明本来就躺在数据里，你只要去挖就行。

链接：https://arxiv.org/abs/2606.26790

← 上一篇

Runlayer融资3000万美元，要做你agent大军的控制室

超级用户日报: 2026年6月27日

← 返回所有文章

加载中...

OPID让agent从自己的错误里学习，不需要外挂记忆库

相关文章

评论