2026年3月22日Research RL Open Source

ProRL Agent：NVIDIA 推出多轮 LLM 代理强化学习训练框架

NVIDIA 发布了 ProRL Agent，一个用于多轮 LLM 代理强化学习训练的 Rollout-as-a-Service 框架。该论文在 HuggingFace 每日论文上获得 34 次投票，配套代码作为 NVIDIA 开源 NeMo Gym 生态系统的一部分提供。

ProRL Agent 解决了训练代理型 LLM 的核心挑战：多轮 RL 训练需要复杂的环境交互，代理必须在多个步骤中进行规划、执行、观察和迭代。传统 RL 框架针对单轮响应生成设计，难以适应定义真实代理工作流的多步工具调用和推理模式。

该框架引入了 Rollout-as-a-Service 架构，将 RL 训练循环与环境交互解耦，实现了使用工具、调用 API 和链式多步推理的代理的可扩展训练。它与 NVIDIA 的 NeMo Gym 集成，专门用于构建 LLM 训练的 RL 环境。

对于代理生态系统而言，ProRL Agent 的重要性在于它提供了首个生产级开源框架，用于在多轮任务上通过 RL 训练代理。随着代理能力越来越依赖 RL 微调而非单纯的提示工程，ProRL Agent 这样的框架正成为构建更好代理的基础设施。

GitHub：https://github.com/NVIDIA-NeMo/Gym

← 上一篇

Context.dev：让 AI 代理实时感知网页的 Web 上下文 API

GitHub 每日之星 — 2026年03月23日

← 返回所有文章

加载中...

ProRL Agent：NVIDIA 推出多轮 LLM 代理强化学习训练框架

相关文章

评论