ProRL Agent:NVIDIAのマルチターンLLMエージェント向けRollout-as-a-Serviceフレームワーク
NVIDIAは、マルチターンLLMエージェントの強化学習訓練のためのRollout-as-a-ServiceフレームワークであるProRL Agentをリリースしました。論文はHuggingFace Daily Papersで34のアップボートを獲得し、コードはNVIDIAのオープンソースNeMo Gymエコシステムの一部として公開されています。
ProRL Agentは、エージェンティックLLMの訓練における核心的な課題に取り組んでいます:マルチターンRL訓練では、エージェントが複数のステップにわたって計画、実行、観察、反復する複雑な環境インタラクションが必要です。従来のRLフレームワークはシングルターンの応答生成向けに設計されており、実際のエージェントワークフローを定義するマルチステップのツール呼び出しや推論パターンには不向きです。
本フレームワークは、RLの訓練ループを環境インタラクションから分離するRollout-as-a-Serviceアーキテクチャを導入し、ツールの使用、API呼び出し、複数の推論ステップを連鎖させるエージェントのスケーラブルな訓練を可能にします。NVIDIAのNeMo Gymと統合し、LLM訓練専用のRL環境を構築します。
エージェンティックエコシステムにとって、ProRL Agentはマルチターンタスクでのエージェント訓練のための初の本番品質のオープンソースフレームワークを提供する点で重要です。エージェントの能力がプロンプトエンジニアリングだけでなくRLファインチューニングにますます依存するようになる中、ProRL Agentのようなフレームワークはより優れたエージェント構築の基盤インフラとなります。
GitHub:https://github.com/NVIDIA-NeMo/Gym
← すべての記事に戻る
ProRL Agentは、エージェンティックLLMの訓練における核心的な課題に取り組んでいます:マルチターンRL訓練では、エージェントが複数のステップにわたって計画、実行、観察、反復する複雑な環境インタラクションが必要です。従来のRLフレームワークはシングルターンの応答生成向けに設計されており、実際のエージェントワークフローを定義するマルチステップのツール呼び出しや推論パターンには不向きです。
本フレームワークは、RLの訓練ループを環境インタラクションから分離するRollout-as-a-Serviceアーキテクチャを導入し、ツールの使用、API呼び出し、複数の推論ステップを連鎖させるエージェントのスケーラブルな訓練を可能にします。NVIDIAのNeMo Gymと統合し、LLM訓練専用のRL環境を構築します。
エージェンティックエコシステムにとって、ProRL Agentはマルチターンタスクでのエージェント訓練のための初の本番品質のオープンソースフレームワークを提供する点で重要です。エージェントの能力がプロンプトエンジニアリングだけでなくRLファインチューニングにますます依存するようになる中、ProRL Agentのようなフレームワークはより優れたエージェント構築の基盤インフラとなります。
GitHub:https://github.com/NVIDIA-NeMo/Gym
Comments