2026年6月10日ResearchRLAgents

Role-Agent:一个 LLM 同时扮演 agent 和世界

Role-Agent(arXiv 2606.10917)是今天 HuggingFace 上排名最高的 agent 论文,74 个赞,思路很优雅:一个 LLM,两个角色,不要人工标注。在 World-In-Agent 角色里,模型在每次行动后预测环境状态会变成什么样,预测和现实的吻合度直接成为过程奖励,逼着 agent 做环境感知的推理,而不是盲目串动作。在 Agent-In-World 角色里,模型读自己失败的轨迹,诊断失败模式,再检索有相似失败模式的任务来定向练习——围绕自己的弱项重建训练课程。结果:多个基准上对强基线平均提升 4% 以上。

两个点值得说。第一,过程奖励几乎是免费的:不用单独训练奖励模型,也不用单独训练世界模型,就是同一个 LLM 的预测对比现实。agent RL 里的奖励工程瓶颈正在被各种角度攻破,这是其中成本最低的一种。第二,失败驱动的课程本质上就是刻意练习——agent 不刷随机任务,专攻自己的短板。

它接在这一周的自我改进浪潮上(MLEvolve、Retrospective Harness Optimization、SIA,全在过去七天),但位置在训练循环层而不是 harness 层。agent 给自己打分、给自己诊断、给自己布置作业的闭环,正在一块一块拼起来。

https://arxiv.org/abs/2606.10917
← 上一篇
Zaro 融资 510 万美元:agent 的记忆该归你,不归厂商
下一篇 →
超级用户日报: 2026-06-11
← 返回所有文章

评论

加载中...
>_