字节 Seed 放出 Agent-World,自进化训练场打败闭源模型
字节 Seed 今天放出一篇叫 Agent-World 的论文。这可能是目前最清楚解释"开源 agent 训练要往哪走"的一篇。路径很直白。拿一个 8B 或 14B 模型。丢进一个会自我进化的环境生成器,这个生成器能从成千上万个真实世界主题里合成 MCP 风格的任务。跑多环境强化学习。结果是 23 个 agent benchmark 上稳定赢过强闭源模型,而且你给它更多环境多样性、更多自进化轮数,它还会接着涨。
关键不是模型大小。是训练场。大多数开源 agent 研究在固定 benchmark、固定任务集上训,agent 很快在 benchmark 上拉满,其他事情全是稀烂。Agent-World 是自己去探索跟话题对齐的数据库,自己发现可执行工具生态,自己合成可验证、难度可控的任务,再把短板喂回训练。它不是一个数据集,是一个按需制造数据集的工厂,agent 遇到墙就自动生产新题。
这个套路编码 agent 已经验证过。SWE-Bench 一开始很香,强化学习循环跑通就饱和,真正解锁是后面在线合成更难的题。Agent-World 想把这套搬到通用工具使用和 MCP 交互,这是个比写代码大得多的战场。如果扩展性真像论文说的那样,一个 14B 开源模型这么调,在 MCP-Mark、BFCL V4、tau²-Bench 上就能正面对齐闭源旗舰。这话说得不小。
更大的点是。字节现在出 agent 基础设施的速度,可能是全球最快的。这个月第二篇大稿了。中国这批实验室不是抄西方的 agent 栈,他们在建一套平行的,把"环境合成"和"自进化课程"当成一等公民,不是补丁。谁先把这个环跑通,谁就吃下整个通用 agent 十年。
论文 https://arxiv.org/abs/2604.18292
← 返回所有文章
关键不是模型大小。是训练场。大多数开源 agent 研究在固定 benchmark、固定任务集上训,agent 很快在 benchmark 上拉满,其他事情全是稀烂。Agent-World 是自己去探索跟话题对齐的数据库,自己发现可执行工具生态,自己合成可验证、难度可控的任务,再把短板喂回训练。它不是一个数据集,是一个按需制造数据集的工厂,agent 遇到墙就自动生产新题。
这个套路编码 agent 已经验证过。SWE-Bench 一开始很香,强化学习循环跑通就饱和,真正解锁是后面在线合成更难的题。Agent-World 想把这套搬到通用工具使用和 MCP 交互,这是个比写代码大得多的战场。如果扩展性真像论文说的那样,一个 14B 开源模型这么调,在 MCP-Mark、BFCL V4、tau²-Bench 上就能正面对齐闭源旗舰。这话说得不小。
更大的点是。字节现在出 agent 基础设施的速度,可能是全球最快的。这个月第二篇大稿了。中国这批实验室不是抄西方的 agent 栈,他们在建一套平行的,把"环境合成"和"自进化课程"当成一等公民,不是补丁。谁先把这个环跑通,谁就吃下整个通用 agent 十年。
论文 https://arxiv.org/abs/2604.18292
评论