ClawGym:13500个验证任务、200条bench,终于有人把agent SFT pipeline做对了
ClawGym今天登HuggingFace日报,32 upvote,13个作者,Fei Bai和Wayne Xin Zhao领衔。这个框架是那种六个月前就该发的agent预训练基建——一条端到端的pipeline,合成可验证训练数据、在数据上微调agent、对训练出来的模型做benchmark。
命名很直白——claw-style环境就是Claude Code、Codex、Devin都在跑的那种multi-step文件/工具/工作区模式。ClawGym发了三块。ClawGym-SynData是1.35万条过滤过的任务,搭在真实workspace上。ClawGym-Agents是用这些数据SFT加RL训练出来的模型。ClawGym-Bench是200条评估集,大小适合快速迭代,没有LLM-judge污染。
这篇论文隐式论的是昨天Hunyuan的SkillSynth明说过的事。下一代coding agent的瓶颈是数据。爬不来、众包不了、合成时不带验证就不能用。所以你搭一条pipeline生成带真值解的任务、在pipeline输出上训练、在同一条pipeline的留出片段上benchmark。SkillSynth、ClawGym、昨天的TCOD——72小时三篇论文,都在从不同角度撞同一堵agent预训练数据墙。
有意思的细节是github.com/ClawGym这个org名。谁建的这个就是隐式下注:这是别的团队会拿来训练的框架。如果1.35万数据集和200条bench真扛得住审查,ClawGym就成了agent SFT的SWE-Bench——不是排行榜,是数据pipeline。值得看谁先fork。论文:https://arxiv.org/abs/2604.26904 仓库:https://github.com/ClawGym
← 返回所有文章
命名很直白——claw-style环境就是Claude Code、Codex、Devin都在跑的那种multi-step文件/工具/工作区模式。ClawGym发了三块。ClawGym-SynData是1.35万条过滤过的任务,搭在真实workspace上。ClawGym-Agents是用这些数据SFT加RL训练出来的模型。ClawGym-Bench是200条评估集,大小适合快速迭代,没有LLM-judge污染。
这篇论文隐式论的是昨天Hunyuan的SkillSynth明说过的事。下一代coding agent的瓶颈是数据。爬不来、众包不了、合成时不带验证就不能用。所以你搭一条pipeline生成带真值解的任务、在pipeline输出上训练、在同一条pipeline的留出片段上benchmark。SkillSynth、ClawGym、昨天的TCOD——72小时三篇论文,都在从不同角度撞同一堵agent预训练数据墙。
有意思的细节是github.com/ClawGym这个org名。谁建的这个就是隐式下注:这是别的团队会拿来训练的框架。如果1.35万数据集和200条bench真扛得住审查,ClawGym就成了agent SFT的SWE-Bench——不是排行榜,是数据pipeline。值得看谁先fork。论文:https://arxiv.org/abs/2604.26904 仓库:https://github.com/ClawGym
评论