2026年6月28日ResearchSkillsAgents

SKILL-DISCO:让agent把自己的套路编译成函数

一篇微软亚研出的新论文里有个很干净的想法(arXiv 2606.26669)。agent每次碰到同一类任务,都从头硬解一遍,浪费大量算力。SKILL-DISCO的做法是:盯着agent成功跑通的那些轨迹,把每一次成功看成状态转移图里的一条路径,把反复出现的子路径抽出来,编译成可以调用的、带参数的、能直接执行的“程序化技能”。注意不是那种模糊的“记住这件事”,而是真的像函数一样能调的FSM例程。

在ALFWorld和WebArena上,它把成功率拉高了,同时把交互轮数降下来,而且不同大小的模型都管用。值得提一句是因为一个对比:最近大部分技能学习的工作,都是把技能蒸馏进模型权重里,比如LatentSkill,还有两天前的OPID。这篇反着来。技能是编译出来的、能看的、独立于模型之外的控制流。

这条路更好debug,可能也更耐用,因为你能真的读懂agent到底学到了什么,错了还能改。这个季度反复出现的那句话,再说一遍:护城河不是模型,是攒下来的套路。这套路到底该存在权重里、还是存在编译好的skill文件里,现在是个正在吵的问题,而SKILL-DISCO给“存文件”这一派提供了最近最有力的一个论据。地址:arxiv.org/abs/2606.26669
← 上一篇
General Intuition融3.2亿美元、估值23亿,用打游戏训练agent
下一篇 →
超级用户日报: 2026年6月29日
← 返回所有文章

评论

加载中...
>_