2026年3月19日Research RL Agents

在线经验学习：微软发布让代理在部署中持续进化的框架

微软研究院发布了在线经验学习（Online Experiential Learning，OEL）框架，使语言模型能从自身的部署经验中持续改进。论文登上 HuggingFace 每日论文榜并获得 35 次点赞，代码已开源。

OEL 分两个阶段运作。第一阶段，从实际使用中收集的交互轨迹中提取和积累可迁移的经验知识。第二阶段，通过同策略上下文蒸馏（on-policy context distillation）将知识固化到模型参数中——关键在于无需访问用户侧环境。

实验结果显示，模型在多轮迭代中持续提升，任务准确率和 token 效率均有改善，同时保持了分布外性能。核心发现：提取的经验知识比原始轨迹有效得多，且知识来源与策略模型之间的同策略一致性对有效学习至关重要。

这解决了已部署代理的核心挑战：如何在不使用用户数据重新训练的前提下持续改进。当前代理部署后即静态不变——OEL 提供了一种机制，让代理在生产环境中学习什么有效、什么无效，同时不损害用户隐私。

论文：https://arxiv.org/abs/2603.16856
代码：https://aka.ms/oel-code

← 上一篇

Newton 1.0：用于训练机器人代理的开源物理引擎正式发布

Google Stitch 2.0：支持 MCP 服务器的 AI 设计工具，可直连编程智能体

← 返回所有文章

加载中...

在线经验学习：微软发布让代理在部署中持续进化的框架

相关文章

评论