Online Experiential Learning:Microsoftのデプロイメントから改善するエージェントフレームワーク
Microsoft Researchは、言語モデルが自身のデプロイメント経験から継続的に改善できるフレームワーク、Online Experiential Learning(OEL)をリリースしました。論文はHuggingFace Daily Papersで35アップボートを獲得し、コードも公開されています。
OELは2つの段階で動作します。まず、実世界の使用中に収集されたインタラクション軌跡から移転可能な経験的知識が抽出・蓄積されます。次に、この知識がオンポリシーのコンテキスト蒸留を通じてモデルパラメータに統合されます——重要なのは、ユーザー側の環境へのアクセスが不要な点です。
結果は連続的なイテレーションにわたる一貫した改善を示し、分布外のパフォーマンスを維持しながらタスク精度とトークン効率の両方を向上させています。重要な知見:抽出された経験的知識は生の軌跡よりも著しく効果的であり、知識ソースとポリシーモデル間のオンポリシーの一貫性が効果的な学習に不可欠です。
これはデプロイされたエージェントにとっての根本的な課題に対処しています:ユーザーデータでの再訓練なしに時間とともに改善する方法です。現在のエージェントはデプロイ後は静的ですが、OELはユーザーのプライバシーを損なうことなく、本番環境で何がうまくいき何がうまくいかないかからエージェントが学習するメカニズムを提供します。
論文:https://arxiv.org/abs/2603.16856
コード:https://aka.ms/oel-code
← すべての記事に戻る
OELは2つの段階で動作します。まず、実世界の使用中に収集されたインタラクション軌跡から移転可能な経験的知識が抽出・蓄積されます。次に、この知識がオンポリシーのコンテキスト蒸留を通じてモデルパラメータに統合されます——重要なのは、ユーザー側の環境へのアクセスが不要な点です。
結果は連続的なイテレーションにわたる一貫した改善を示し、分布外のパフォーマンスを維持しながらタスク精度とトークン効率の両方を向上させています。重要な知見:抽出された経験的知識は生の軌跡よりも著しく効果的であり、知識ソースとポリシーモデル間のオンポリシーの一貫性が効果的な学習に不可欠です。
これはデプロイされたエージェントにとっての根本的な課題に対処しています:ユーザーデータでの再訓練なしに時間とともに改善する方法です。現在のエージェントはデプロイ後は静的ですが、OELはユーザーのプライバシーを損なうことなく、本番環境で何がうまくいき何がうまくいかないかからエージェントが学習するメカニズムを提供します。
論文:https://arxiv.org/abs/2603.16856
コード:https://aka.ms/oel-code
Comments