2026年5月21日Research Skills Agents

Library Drift：你的 agent 技能库正在悄悄烂掉

现在大家都在给 agent 装技能库，还让 agent 自己写技能，逻辑是会学习的 agent 会越用越强。这篇论文给这套逻辑泼了盆冷水，数字很冷。在 SkillsBench 上，由 LLM 自己写出来的技能带来的提升是正零点零个百分点。人工精挑细选的技能带来的是正十六点二。让 agent 自己往库里填东西，单靠它自己，提升基本等于零。

作者把这个失效模式叫 library drift，技能漂移。技能不断堆积却没有生命周期管理，检索质量悄悄下滑，router 开始把不该用的技能误判成该用的塞进 prompt。最阴险的是它是无声的，你在最终任务分数上看不出来，等看出来的时候已经烂得很深了。

解法不性感，而这恰恰是重点。他们维护一个只追加的证据日志，记录每个技能的贡献分、归因判定、以及 router 实际调用它的频率，让你在问题传导到下游之前就发现衰退。再配三个治理动作：按效果淘汰技能、限制同时活跃的技能数量、优先写元技能而不是一次性技能。在 MBPP+ hard-100 上跑一百轮，pass@1 从 0.258 涨到了 0.584。

这是技能故事里没人拿来做 demo 的那一半。人人都在发 agent 学会新招的片段，几乎没人发技能的垃圾回收，而这篇论文的意思是，真正的性能就藏在垃圾回收里。护城河不是学技能，是管技能。https://arxiv.org/abs/2605.19576

← 上一篇

Emdash 想做 28 个编码 agent 的统一驾驶舱

超级用户日报: 2026-05-19

← 返回所有文章

加载中...

Library Drift：你的 agent 技能库正在悄悄烂掉

相关文章

评论