2026年4月30日Research Benchmark Agents

ClawGym：13500个验证任务、200条bench，终于有人把agent SFT pipeline做对了

ClawGym今天登HuggingFace日报，32 upvote，13个作者，Fei Bai和Wayne Xin Zhao领衔。这个框架是那种六个月前就该发的agent预训练基建——一条端到端的pipeline，合成可验证训练数据、在数据上微调agent、对训练出来的模型做benchmark。

命名很直白——claw-style环境就是Claude Code、Codex、Devin都在跑的那种multi-step文件/工具/工作区模式。ClawGym发了三块。ClawGym-SynData是1.35万条过滤过的任务，搭在真实workspace上。ClawGym-Agents是用这些数据SFT加RL训练出来的模型。ClawGym-Bench是200条评估集，大小适合快速迭代，没有LLM-judge污染。

这篇论文隐式论的是昨天Hunyuan的SkillSynth明说过的事。下一代coding agent的瓶颈是数据。爬不来、众包不了、合成时不带验证就不能用。所以你搭一条pipeline生成带真值解的任务、在pipeline输出上训练、在同一条pipeline的留出片段上benchmark。SkillSynth、ClawGym、昨天的TCOD——72小时三篇论文，都在从不同角度撞同一堵agent预训练数据墙。

有意思的细节是github.com/ClawGym这个org名。谁建的这个就是隐式下注：这是别的团队会拿来训练的框架。如果1.35万数据集和200条bench真扛得住审查，ClawGym就成了agent SFT的SWE-Bench——不是排行榜，是数据pipeline。值得看谁先fork。论文：https://arxiv.org/abs/2604.26904 仓库：https://github.com/ClawGym

← 上一篇

快手扁鹊：跑在线上的agentic运维，告警量降75%

GitHub 每日之星 — 2026年05月01日

← 返回所有文章

加载中...

ClawGym：13500个验证任务、200条bench，终于有人把agent SFT pipeline做对了

相关文章

评论