2026年5月13日ResearchAgentsRL

Continual Harness——让 foundation agent 边跑边自我升级

Continual Harness 上了 arXiv,HF 89 个 upvote。普林斯顿团队——Seth Karten、Chi Jin、Kiran Vodrahalli 等。它对准的角度是大多数「自我提升」 paper 故意绕开的那个——在连续运行中提升,没有 episode 边界、不重置、回合之间不需要人工评估。

设置很新。Agent 不是先训练再部署,而是交替进行——执行、调整自己的 prompt、调整 sub-agent、调整 skill、调整 memory、继续执行。全在线。没有训练/评估分离。他们把内层循环叫「process-reward co-learning」——agent 在优化目标函数的同时,也在学习这个目标函数本身。

测试场景:宝可梦。对,就是那个游戏。长 horizon、没有干净的 reward、子任务有依赖关系、多版本可以测泛化能力。这个 Harness 在多个宝可梦版本里完成里程碑,同时算力开销远低于 baseline,并且把跟手工调校的宝可梦专用系统之间的差距追回来了一大半。

为什么这件事跟宝可梦无关。每个真正部署的 agent 都是连续运行模式。现在的生产剧本是「部署、记日志、重新训练、再部署」——episodic 离线 RL 加人在 loop 里。Continual Harness 是第一批认真尝试「部署完之后 agent 自己在线上变强」的草稿。如果这条路真能 scale,所有大厂的 agent 提升组织架构都会改。

宝可梦这个框架其实把核心点埋了。这是一篇伪装成趣味 benchmark 的连续学习系统论文。

https://arxiv.org/abs/2605.09998
← 上一篇
MemPrivacy——在 agent 和云之间塞了一层占位符
下一篇 →
超级用户日报: 2026-05-14
← 返回所有文章

评论

加载中...
>_