2026年6月28日Research Skills Agents

SKILL-DISCO：让agent把自己的套路编译成函数

一篇微软亚研出的新论文里有个很干净的想法（arXiv 2606.26669）。agent每次碰到同一类任务，都从头硬解一遍，浪费大量算力。SKILL-DISCO的做法是：盯着agent成功跑通的那些轨迹，把每一次成功看成状态转移图里的一条路径，把反复出现的子路径抽出来，编译成可以调用的、带参数的、能直接执行的“程序化技能”。注意不是那种模糊的“记住这件事”，而是真的像函数一样能调的FSM例程。

在ALFWorld和WebArena上，它把成功率拉高了，同时把交互轮数降下来，而且不同大小的模型都管用。值得提一句是因为一个对比：最近大部分技能学习的工作，都是把技能蒸馏进模型权重里，比如LatentSkill，还有两天前的OPID。这篇反着来。技能是编译出来的、能看的、独立于模型之外的控制流。

这条路更好debug，可能也更耐用，因为你能真的读懂agent到底学到了什么，错了还能改。这个季度反复出现的那句话，再说一遍：护城河不是模型，是攒下来的套路。这套路到底该存在权重里、还是存在编译好的skill文件里，现在是个正在吵的问题，而SKILL-DISCO给“存文件”这一派提供了最近最有力的一个论据。地址：arxiv.org/abs/2606.26669

← 上一篇

General Intuition融3.2亿美元、估值23亿，用打游戏训练agent

超级用户日报: 2026年6月29日

← 返回所有文章

加载中...

SKILL-DISCO：让agent把自己的套路编译成函数

相关文章

评论