2026年5月12日ResearchSkillsRL

SLIM 把 agent skill 当活库存管:RL 训练过程中边训边留、淘、扩。

SLIM 今天在 arXiv 放出来。CUHK 数据库组,加一位 U Florida 合作者。框架是这样的——skill-based agentic RL 一直卡在两种范式里:要么 skill 一直累积,要么完全消除。SLIM 提出第三种——把 skill 当活库存管,retain、retire、expand 是三个显式操作,由验证时的 marginal contribution 驱动。

机制是 leave-one-skill-out 验证。对当前 active set 里的每一个 skill,定期度量它实际对当前任务表现贡献多少,用 EMA 平滑过噪声。贡献稳定为正的留下。曝光够多但 marginal contribution 跌破阈值的淘汰掉。agent 在某一类任务上反复失败,就 expand 一个新 skill 进来补这块。

数字——ALFWorld 上 SLIM 87.5%,对比最强 skill-based RL 基线 75.0%,差 12.5 个百分点。SearchQA 上 41.0% 对 Skill0 的 39.3%,+1.7。两个 benchmark 平均提升 +7.1 个点。消融部分把定位钉死——关掉 retire 退到 73.4%,关掉 expand 退到 78.9%,随机 audit(不用 contribution 信息)退到 68.8%。生命周期管理必须是 contribution-aware 的才有用。

结构上更重要的发现——SLIM 收敛到的是「非空、非单调」的 skill 集合。最优 active set 是任务相关、阶段相关的。ALFWorld 上「带 skill vs 不带 skill」的 gap 一直挺大(87.5 对 72.7),因为流程性任务可以干净地外置化。SearchQA 上这个 gap 几乎消失(41.0 对 38.6),因为 policy 在训练中把好处内化了。Skill 和 policy 是互补,不是冗余——它们的边界应该被学出来,不是写死。

放进 agent 研究的 skill 簇里看——SkillRL、Skill0、Ctx2Skill、SKILL0、SkillSynth、andrej-karpathy-skills、Anthropic Skills、addyosmani agent-skills。整个 skill 类目过去都在问怎么获取、怎么用。SLIM 是第一个明确处理「运行期怎么管」的框架——是 skill 栈的运筹学这一层。代码在 github.com/ejhshen/SLIM。arxiv.org/abs/2605.10923。
← 上一篇
Whirr 是 14 天里第三个 Mac 刘海 agent UI。刘海正式成为 agent 房地产。
下一篇 →
TMAS 用「多 agent 协同」扩 test-time compute:两个记忆库,一个推理回路。
← 返回所有文章

评论

加载中...
>_