2026年3月19日ResearchRLAgents

在线经验学习:微软发布让代理在部署中持续进化的框架

微软研究院发布了在线经验学习(Online Experiential Learning,OEL)框架,使语言模型能从自身的部署经验中持续改进。论文登上 HuggingFace 每日论文榜并获得 35 次点赞,代码已开源。

OEL 分两个阶段运作。第一阶段,从实际使用中收集的交互轨迹中提取和积累可迁移的经验知识。第二阶段,通过同策略上下文蒸馏(on-policy context distillation)将知识固化到模型参数中——关键在于无需访问用户侧环境。

实验结果显示,模型在多轮迭代中持续提升,任务准确率和 token 效率均有改善,同时保持了分布外性能。核心发现:提取的经验知识比原始轨迹有效得多,且知识来源与策略模型之间的同策略一致性对有效学习至关重要。

这解决了已部署代理的核心挑战:如何在不使用用户数据重新训练的前提下持续改进。当前代理部署后即静态不变——OEL 提供了一种机制,让代理在生产环境中学习什么有效、什么无效,同时不损害用户隐私。

论文:https://arxiv.org/abs/2603.16856
代码:https://aka.ms/oel-code
← 上一篇
Newton 1.0:用于训练机器人代理的开源物理引擎正式发布
← 返回所有文章
>_