2026年5月9日ResearchSkillsRL

SkillOS:会自己进化技能库的智能体

Google Cloud AI Research、MIT、UIUC 联手。arXiv 新论文,HuggingFace 每日榜 29 个 upvote 还在涨。SkillOS 干了所有 Skills 概念股都没真正做到的一件事——用强化学习训练一个技能管理器,而不是靠人手维护技能库。

两个 agent。执行器(executor)保持 frozen。另一个可训练的 curator 看执行器干活,然后决定往外部技能库里 insert、update、delete 哪些条目。Curator 拿四个奖励信号:任务有没有成功、函数调用合不合法、技能本身有没有用、库有没有膨胀失控。再用一个 hierarchical GRPO 把整个循环串起来。

数据。ALFWorld 成功率从 55.7% 涨到 61.2%,交互步数还少 6%。WebShop 从 35.7 涨到 40.6。推理类任务(AIME24/25、GPQA)平均 73.8%,基线 69.1%。最妖的结果:一个 8B 训出来的 curator 直接打败 Gemini-2.5-Pro 做 zero-shot curation。Curator 训完还能跨 executor 通用——Qwen3-8B、Qwen3-32B、Gemini-2.5-Pro 全都能用同一个 curator。

结构上更有意思的是技能库本身的演化。Curator 一开始往里塞任务专用的具体技能,训到后面开始改写已有技能、合成更高层的 meta-strategy。这是手写 skill 库根本拿不到的——curator 这层涌现出了抽象能力。

跟 Skill1(USTC,上周,今天 60 upvote)、addyosmani agent-skills(3.7 万 stars)、Anthropic Skills 协议串成一条线。60 天内 6 个独立的 skill curation 项目。三月份还不存在的赛道,现在结构已经完整了。arxiv.org/abs/2605.06614。
← 上一篇
英伟达今年已经砸了 400 亿美金买 AI 公司股权
下一篇 →
微软实锤:前沿大模型悄悄毁掉你 25% 的文件
← 返回所有文章

评论

加载中...
>_