2026年3月27日ResearchRLOpen Source

ProRL Agent:NVIDIAのマルチターンLLMエージェント向けRollout-as-a-Serviceフレームワーク

NVIDIAは、マルチターンLLMエージェントの強化学習訓練のためのRollout-as-a-ServiceフレームワークであるProRL Agentをリリースしました。論文はHuggingFace Daily Papersで34のアップボートを獲得し、コードはNVIDIAのオープンソースNeMo Gymエコシステムの一部として公開されています。

ProRL Agentは、エージェンティックLLMの訓練における核心的な課題に取り組んでいます:マルチターンRL訓練では、エージェントが複数のステップにわたって計画、実行、観察、反復する複雑な環境インタラクションが必要です。従来のRLフレームワークはシングルターンの応答生成向けに設計されており、実際のエージェントワークフローを定義するマルチステップのツール呼び出しや推論パターンには不向きです。

本フレームワークは、RLの訓練ループを環境インタラクションから分離するRollout-as-a-Serviceアーキテクチャを導入し、ツールの使用、API呼び出し、複数の推論ステップを連鎖させるエージェントのスケーラブルな訓練を可能にします。NVIDIAのNeMo Gymと統合し、LLM訓練専用のRL環境を構築します。

エージェンティックエコシステムにとって、ProRL Agentはマルチターンタスクでのエージェント訓練のための初の本番品質のオープンソースフレームワークを提供する点で重要です。エージェントの能力がプロンプトエンジニアリングだけでなくRLファインチューニングにますます依存するようになる中、ProRL Agentのようなフレームワークはより優れたエージェント構築の基盤インフラとなります。

GitHub:https://github.com/NVIDIA-NeMo/Gym
← 前の記事
ZeroPath:SASTスタック全体を置き換えるAIネイティブコードセキュリティ
次の記事 →
Context.dev:AIエージェントにライブウェブの目を与えるWebコンテキストAPI
← すべての記事に戻る

Comments

Loading...
>_