2026年4月21日Research Agents RL

字节 Seed 放出 Agent-World，自进化训练场打败闭源模型

字节 Seed 今天放出一篇叫 Agent-World 的论文。这可能是目前最清楚解释"开源 agent 训练要往哪走"的一篇。路径很直白。拿一个 8B 或 14B 模型。丢进一个会自我进化的环境生成器，这个生成器能从成千上万个真实世界主题里合成 MCP 风格的任务。跑多环境强化学习。结果是 23 个 agent benchmark 上稳定赢过强闭源模型，而且你给它更多环境多样性、更多自进化轮数，它还会接着涨。

关键不是模型大小。是训练场。大多数开源 agent 研究在固定 benchmark、固定任务集上训，agent 很快在 benchmark 上拉满，其他事情全是稀烂。Agent-World 是自己去探索跟话题对齐的数据库，自己发现可执行工具生态，自己合成可验证、难度可控的任务，再把短板喂回训练。它不是一个数据集，是一个按需制造数据集的工厂，agent 遇到墙就自动生产新题。

这个套路编码 agent 已经验证过。SWE-Bench 一开始很香，强化学习循环跑通就饱和，真正解锁是后面在线合成更难的题。Agent-World 想把这套搬到通用工具使用和 MCP 交互，这是个比写代码大得多的战场。如果扩展性真像论文说的那样，一个 14B 开源模型这么调，在 MCP-Mark、BFCL V4、tau²-Bench 上就能正面对齐闭源旗舰。这话说得不小。

更大的点是。字节现在出 agent 基础设施的速度，可能是全球最快的。这个月第二篇大稿了。中国这批实验室不是抄西方的 agent 栈，他们在建一套平行的，把"环境合成"和"自进化课程"当成一等公民，不是补丁。谁先把这个环跑通，谁就吃下整个通用 agent 十年。

论文 https://arxiv.org/abs/2604.18292

← 上一篇

X Square Robot 拿到 2.76 亿美元 B 轮，小米和红杉中国领投

EvoMaster：100 行代码就能拼出一个科研 agent

← 返回所有文章

加载中...

字节 Seed 放出 Agent-World，自进化训练场打败闭源模型

更多文章

评论