2026年4月3日ResearchRLSkills

SKILL0:教Agent扔掉辅助轮

现在所有的Agent框架都是一个套路:运行时给Agent塞技能,祈祷它用对了。问题很明显——检索噪音带来不相关的指引,注入的技能内容撑大上下文,模型从来没真正学到东西。它只是在跟随被喂进来的指令。

浙江大学和美团的SKILL0把这个逻辑反过来了。不在推理时喂技能,而是在训练阶段把技能烤进模型参数里。框架从完整的技能上下文开始,逐步撤掉,用动态课程表评估每个技能文件是否真的在帮助当前策略。没帮助就丢掉。训练结束时,Agent是零样本运行的——不需要任何运行时技能检索。

结果很有说服力:在ALFWorld上比标准RL基线高9.7%,在Search-QA上高6.6%,同时上下文保持在每步0.5K token以内。作为对比,典型的技能增强Agent光是技能上下文就要2-4K token每步。

这件事之所以重要,是因为它解决了Agent能力和Agent成本之间的根本矛盾。技能让Agent更聪明,但也更贵。如果你能把技能内化到权重里,你就得到了智能但不用交token税。

今天HuggingFace上62个赞。代码确认在github.com/ZJU-REAL/SkillZero。

https://arxiv.org/abs/2604.02268
← 上一篇
Codenotary AgentMon:谁在盯着你的AI Agent?
下一篇 →
Miravoice融资630万美元,用AI Agent替代电话调查员
← 返回所有文章

评论

加载中...
>_