2026年5月9日Research Skills RL

SkillOS：会自己进化技能库的智能体

Google Cloud AI Research、MIT、UIUC 联手。arXiv 新论文，HuggingFace 每日榜 29 个 upvote 还在涨。SkillOS 干了所有 Skills 概念股都没真正做到的一件事——用强化学习训练一个技能管理器，而不是靠人手维护技能库。

两个 agent。执行器（executor）保持 frozen。另一个可训练的 curator 看执行器干活，然后决定往外部技能库里 insert、update、delete 哪些条目。Curator 拿四个奖励信号：任务有没有成功、函数调用合不合法、技能本身有没有用、库有没有膨胀失控。再用一个 hierarchical GRPO 把整个循环串起来。

数据。ALFWorld 成功率从 55.7% 涨到 61.2%，交互步数还少 6%。WebShop 从 35.7 涨到 40.6。推理类任务（AIME24/25、GPQA）平均 73.8%，基线 69.1%。最妖的结果：一个 8B 训出来的 curator 直接打败 Gemini-2.5-Pro 做 zero-shot curation。Curator 训完还能跨 executor 通用——Qwen3-8B、Qwen3-32B、Gemini-2.5-Pro 全都能用同一个 curator。

结构上更有意思的是技能库本身的演化。Curator 一开始往里塞任务专用的具体技能，训到后面开始改写已有技能、合成更高层的 meta-strategy。这是手写 skill 库根本拿不到的——curator 这层涌现出了抽象能力。

跟 Skill1（USTC，上周，今天 60 upvote）、addyosmani agent-skills（3.7 万 stars）、Anthropic Skills 协议串成一条线。60 天内 6 个独立的 skill curation 项目。三月份还不存在的赛道，现在结构已经完整了。arxiv.org/abs/2605.06614。

← 上一篇

英伟达今年已经砸了 400 亿美金买 AI 公司股权

微软实锤：前沿大模型悄悄毁掉你 25% 的文件

← 返回所有文章

加载中...

SkillOS：会自己进化技能库的智能体

相关文章

评论