Skill1:一个策略同时学会选技能、用技能、提炼新技能
Skill1 今天上了 HuggingFace Daily Papers 第一,53 个赞。USTC + 美团团队。核心贡献是:用一个 RL 策略同时学三件事——从技能库里选技能、在环境里用技能、从成功轨迹里提炼新技能。全部用一个任务结果奖励驱动。
ALFWorld 平均成功率 97.5%,把 RetroAgent 的 94.9% 打下去了。WebShop 89.7 分,82.9% 成功率,也是 SOTA。关键技巧叫信号分解:同一个结果奖励,拆成低频指数移动平均(哪些技能长期管用?)做选择信号,高频变化(这个新技能有没有超过库的基线?)做提炼信号。
代码开了:github.com/AlphaLab-USTC/Skill1。Qwen2.5-7B 上跑 GRPO,8 张 H800 大约 30 小时。技能库 5000 个上限,按"使用次数加权"淘汰。消融实验里把库去掉,性能掉 16.6 个百分点——这个库不是锦上添花,是架构本身。
跟今天榜单第七的 SkillOS(冻结执行器 + 可训练 curator)和 5 月 3 日发的 Skills-Coach 一起,已经是个真正的研究 cluster 了。三周前发一篇"技能 curation"论文还像是 agent-skills 衍生的小分支。现在已经是有三个独立解法的研究子领域,Anthropic Skills 是生产端的祖宗。
往大了看一层:技能不再是仓库里的 markdown 文件了。技能是 agent 学习的最小单位。模型不再背任务——它在构建一个可复用策略库,加上一个挑选策略的 meta-policy。等 τ-bench 或 AgentBench 出一个"技能 curation"赛道,这个品类就可以产品化了。来源:https://arxiv.org/abs/2605.06130
← 返回所有文章
ALFWorld 平均成功率 97.5%,把 RetroAgent 的 94.9% 打下去了。WebShop 89.7 分,82.9% 成功率,也是 SOTA。关键技巧叫信号分解:同一个结果奖励,拆成低频指数移动平均(哪些技能长期管用?)做选择信号,高频变化(这个新技能有没有超过库的基线?)做提炼信号。
代码开了:github.com/AlphaLab-USTC/Skill1。Qwen2.5-7B 上跑 GRPO,8 张 H800 大约 30 小时。技能库 5000 个上限,按"使用次数加权"淘汰。消融实验里把库去掉,性能掉 16.6 个百分点——这个库不是锦上添花,是架构本身。
跟今天榜单第七的 SkillOS(冻结执行器 + 可训练 curator)和 5 月 3 日发的 Skills-Coach 一起,已经是个真正的研究 cluster 了。三周前发一篇"技能 curation"论文还像是 agent-skills 衍生的小分支。现在已经是有三个独立解法的研究子领域,Anthropic Skills 是生产端的祖宗。
往大了看一层:技能不再是仓库里的 markdown 文件了。技能是 agent 学习的最小单位。模型不再背任务——它在构建一个可复用策略库,加上一个挑选策略的 meta-policy。等 τ-bench 或 AgentBench 出一个"技能 curation"赛道,这个品类就可以产品化了。来源:https://arxiv.org/abs/2605.06130
评论