2026年5月8日Research RL Skills Open Source

Skill1：一个策略同时学会选技能、用技能、提炼新技能

Skill1 今天上了 HuggingFace Daily Papers 第一，53 个赞。USTC + 美团团队。核心贡献是：用一个 RL 策略同时学三件事——从技能库里选技能、在环境里用技能、从成功轨迹里提炼新技能。全部用一个任务结果奖励驱动。

ALFWorld 平均成功率 97.5%，把 RetroAgent 的 94.9% 打下去了。WebShop 89.7 分，82.9% 成功率，也是 SOTA。关键技巧叫信号分解：同一个结果奖励，拆成低频指数移动平均（哪些技能长期管用？）做选择信号，高频变化（这个新技能有没有超过库的基线？）做提炼信号。

代码开了：github.com/AlphaLab-USTC/Skill1。Qwen2.5-7B 上跑 GRPO，8 张 H800 大约 30 小时。技能库 5000 个上限，按"使用次数加权"淘汰。消融实验里把库去掉，性能掉 16.6 个百分点——这个库不是锦上添花，是架构本身。

跟今天榜单第七的 SkillOS（冻结执行器 + 可训练 curator）和 5 月 3 日发的 Skills-Coach 一起，已经是个真正的研究 cluster 了。三周前发一篇"技能 curation"论文还像是 agent-skills 衍生的小分支。现在已经是有三个独立解法的研究子领域，Anthropic Skills 是生产端的祖宗。

往大了看一层：技能不再是仓库里的 markdown 文件了。技能是 agent 学习的最小单位。模型不再背任务——它在构建一个可复用策略库，加上一个挑选策略的 meta-policy。等 τ-bench 或 AgentBench 出一个"技能 curation"赛道，这个品类就可以产品化了。来源：https://arxiv.org/abs/2605.06130

← 上一篇

新论文 DCI-Agent：扔掉向量库，让 agent 直接 grep

re_gent：给 coding agent 用的 git

← 返回所有文章

加载中...

Skill1：一个策略同时学会选技能、用技能、提炼新技能

更多文章

评论