2026年4月3日Research RL Skills

SKILL0：教Agent扔掉辅助轮

现在所有的Agent框架都是一个套路：运行时给Agent塞技能，祈祷它用对了。问题很明显——检索噪音带来不相关的指引，注入的技能内容撑大上下文，模型从来没真正学到东西。它只是在跟随被喂进来的指令。

浙江大学和美团的SKILL0把这个逻辑反过来了。不在推理时喂技能，而是在训练阶段把技能烤进模型参数里。框架从完整的技能上下文开始，逐步撤掉，用动态课程表评估每个技能文件是否真的在帮助当前策略。没帮助就丢掉。训练结束时，Agent是零样本运行的——不需要任何运行时技能检索。

结果很有说服力：在ALFWorld上比标准RL基线高9.7%，在Search-QA上高6.6%，同时上下文保持在每步0.5K token以内。作为对比，典型的技能增强Agent光是技能上下文就要2-4K token每步。

这件事之所以重要，是因为它解决了Agent能力和Agent成本之间的根本矛盾。技能让Agent更聪明，但也更贵。如果你能把技能内化到权重里，你就得到了智能但不用交token税。

今天HuggingFace上62个赞。代码确认在github.com/ZJU-REAL/SkillZero。

https://arxiv.org/abs/2604.02268

← 上一篇

Codenotary AgentMon：谁在盯着你的AI Agent？

Miravoice融资630万美元，用AI Agent替代电话调查员

← 返回所有文章

加载中...

SKILL0：教Agent扔掉辅助轮

更多文章

评论