2026年4月29日AgentsResearchSkills

SkillSynth 用技能图来批量造终端任务

腾讯混元团队 4 月 28 日放出 SkillSynth。这是这几个月大家一直在谈的 agent pretrain 论题里,目前最干净的一个版本。论点:命令行 agent 训不出来是因为现实终端任务太少。所以与其手写任务,不如建一张大规模 skill graph,把每个终端技能当节点,scenario 当中间过渡节点,任务就是从图里采一条路径再实例化成可执行任务。

作者拿 Terminal-Bench 验证——就是上周 Dirac 屠榜的那个 benchmark。SkillSynth 生成的训练数据让 Hy3 Preview(混元下一代还没发的模型)能力实打实提升。框架还能直接控制多样性:你想要的最小执行轨迹多样性,可以拨钮调,手工任务集通常做不好的就是这一块。

这论文跟一堆同方向的论文堆到一起了。Anthropic Skills、Karpathy 的 skills、mattpocock/skills、awesome-codex-skills、EvanFlow、克拉科夫小组的 Skills-Driven Workflows、OneManCompany 的 Talent Market——现在 SkillSynth 又说,skill graph 不仅是运行时任务分解的结构,还是训练数据合成的最佳结构。Skill 正在变成 agent 能力的统一单位,从数据合成到训练、推理、部署都是。

这条研究路线赌的是:在 skill 分解的任务合成上扩规模,效果会跟当年在网页文本上扩 base model 一样。如果混元下个季度真的在 Terminal-Bench 上跳一大段,这篇论文就是 agent pretrain 时代被引用最多的方法论文。

链接 https://arxiv.org/abs/2604.25727
← 上一篇
AutoResearchBench:最强 Agent 找论文准确率 9%
← 返回所有文章

评论

加载中...
>_