2026年6月11日Research RL Agents

Role-Agent：一个 LLM 同时扮演 agent 和世界

Role-Agent（arXiv 2606.10917）是今天 HuggingFace 上排名最高的 agent 论文，74 个赞，思路很优雅：一个 LLM，两个角色，不要人工标注。在 World-In-Agent 角色里，模型在每次行动后预测环境状态会变成什么样，预测和现实的吻合度直接成为过程奖励，逼着 agent 做环境感知的推理，而不是盲目串动作。在 Agent-In-World 角色里，模型读自己失败的轨迹，诊断失败模式，再检索有相似失败模式的任务来定向练习——围绕自己的弱项重建训练课程。结果：多个基准上对强基线平均提升 4% 以上。

两个点值得说。第一，过程奖励几乎是免费的：不用单独训练奖励模型，也不用单独训练世界模型，就是同一个 LLM 的预测对比现实。agent RL 里的奖励工程瓶颈正在被各种角度攻破，这是其中成本最低的一种。第二，失败驱动的课程本质上就是刻意练习——agent 不刷随机任务，专攻自己的短板。

它接在这一周的自我改进浪潮上（MLEvolve、Retrospective Harness Optimization、SIA，全在过去七天），但位置在训练循环层而不是 harness 层。agent 给自己打分、给自己诊断、给自己布置作业的闭环，正在一块一块拼起来。

https://arxiv.org/abs/2606.10917

← 上一篇

Zaro 融资 510 万美元：agent 的记忆该归你，不归厂商

超级用户日报: 2026-06-11

← 返回所有文章

加载中...

Role-Agent：一个 LLM 同时扮演 agent 和世界

相关文章

评论