2026年3月27日Research RL Agents

オンライン経験学習：Microsoftが実行中に改善するエージェントのフレームワークを発表

Microsoftリサーチは「オンライン経験学習」フレームワークを発表した。AIエージェントがタスクの実行中にリアルタイムで自身の行動を改善する手法で、事前のトレーニングではなく実際の経験から学習する。

このフレームワークの核心は、エージェントが各タスク実行後に「振り返り」を行い、成功した戦略と失敗した戦略をメモリに記録することだ。次のタスクでは過去の経験を参照し、より効果的な行動計画を立てる。これにより、エージェントはデプロイ後もパフォーマンスが継続的に向上する。

技術的には、経験をベクトルデータベースに格納し、類似タスクの過去の経験を検索して現在の判断に活用する。報酬信号としてタスクの成功/失敗だけでなく、中間ステップの効率性も評価する。

実験結果では、エージェントのタスク完了率が時間とともに有意に向上することが示された。特にウェブナビゲーション、コード生成、文書処理などの複雑なマルチステップタスクで効果が顕著だ。

エージェントエコシステムにとって、オンライン経験学習はエージェントの「冷間起動問題」を解決する重要なアプローチだ。デプロイ初日から学習を開始し、使えば使うほど賢くなるエージェントの実現に向けた具体的な方法論を提示している。

論文：https://arxiv.org/abs/2603.online-experiential

← 前の記事

Google Stitch 2.0：コーディングエージェント向けMCPサーバー搭載のバイブデザインツール

Newton 1.0：ロボティクスエージェント訓練のためのオープンソース物理エンジン

← すべての記事に戻る

オンライン経験学習：Microsoftが実行中に改善するエージェントのフレームワークを発表

関連記事

Comments