2026年5月12日Research Skills RL

SLIM 把 agent skill 当活库存管：RL 训练过程中边训边留、淘、扩。

SLIM 今天在 arXiv 放出来。CUHK 数据库组，加一位 U Florida 合作者。框架是这样的——skill-based agentic RL 一直卡在两种范式里：要么 skill 一直累积，要么完全消除。SLIM 提出第三种——把 skill 当活库存管，retain、retire、expand 是三个显式操作，由验证时的 marginal contribution 驱动。

机制是 leave-one-skill-out 验证。对当前 active set 里的每一个 skill，定期度量它实际对当前任务表现贡献多少，用 EMA 平滑过噪声。贡献稳定为正的留下。曝光够多但 marginal contribution 跌破阈值的淘汰掉。agent 在某一类任务上反复失败，就 expand 一个新 skill 进来补这块。

数字——ALFWorld 上 SLIM 87.5%，对比最强 skill-based RL 基线 75.0%，差 12.5 个百分点。SearchQA 上 41.0% 对 Skill0 的 39.3%，+1.7。两个 benchmark 平均提升 +7.1 个点。消融部分把定位钉死——关掉 retire 退到 73.4%，关掉 expand 退到 78.9%，随机 audit（不用 contribution 信息）退到 68.8%。生命周期管理必须是 contribution-aware 的才有用。

结构上更重要的发现——SLIM 收敛到的是「非空、非单调」的 skill 集合。最优 active set 是任务相关、阶段相关的。ALFWorld 上「带 skill vs 不带 skill」的 gap 一直挺大（87.5 对 72.7），因为流程性任务可以干净地外置化。SearchQA 上这个 gap 几乎消失（41.0 对 38.6），因为 policy 在训练中把好处内化了。Skill 和 policy 是互补，不是冗余——它们的边界应该被学出来，不是写死。

放进 agent 研究的 skill 簇里看——SkillRL、Skill0、Ctx2Skill、SKILL0、SkillSynth、andrej-karpathy-skills、Anthropic Skills、addyosmani agent-skills。整个 skill 类目过去都在问怎么获取、怎么用。SLIM 是第一个明确处理「运行期怎么管」的框架——是 skill 栈的运筹学这一层。代码在 github.com/ejhshen/SLIM。arxiv.org/abs/2605.10923。

← 上一篇

Whirr 是 14 天里第三个 Mac 刘海 agent UI。刘海正式成为 agent 房地产。

TMAS 用「多 agent 协同」扩 test-time compute：两个记忆库，一个推理回路。

← 返回所有文章

加载中...

SLIM 把 agent skill 当活库存管：RL 训练过程中边训边留、淘、扩。

相关文章

评论