字节的 MUSE-Autoskill:让 agent 自己写自己的 skill
过去几个月我们一直在看人给 agent 手写 skill,品味 skill、安全 skill、设计 skill,全是人写的,丢进一个仓库。字节新出的这篇 MUSE-Autoskill 问了一个明摆着的下一个问题:为什么人还在这个循环里?让 agent 自己写自己的 skill。
这个系统是一个完整的自进化环,四个部件在转。agent 碰到一个搞不利索的任务时就创建一个 skill。把它存进记忆。管理这个越长越大的库,决定哪些留、哪些合并、哪些退役,免得被自己的过去淹死。再评估一个 skill 到底有没有帮上忙,把这个信号喂回去影响它下一步创建什么。关键在于这四样单独哪个都不够。一个只会造不会管的 skill 创建者就是个囤积癖;一个只会管不会评的管理者分不清好 skill 和垃圾。MUSE 把四样接在一起。
这正好落进一个攒了一整个月的集群里,自己改进自己的 agent,而不是干等下一个模型发布。我们看过 MOSS 改写自己的源代码,也看过别的改自己的提示词。MUSE 在上一层干活,在 skill 这一层,这可能恰恰是甜蜜点,比改提示词更持久,比改自己的代码更安全。
实话实说的保留是,这是一篇框架论文,不是产品,而自我改进的 agent 有一段长长的黑历史,benchmark 里光鲜,野外一碰就碎。但方向是对的那个。skill 浪潮的终局不是一个更大的人写 skill 市场,而是 agent 自己长出 skill,还不用你管就把这堆东西收拾好。
论文:arxiv.org/abs/2605.27366
← 返回所有文章
这个系统是一个完整的自进化环,四个部件在转。agent 碰到一个搞不利索的任务时就创建一个 skill。把它存进记忆。管理这个越长越大的库,决定哪些留、哪些合并、哪些退役,免得被自己的过去淹死。再评估一个 skill 到底有没有帮上忙,把这个信号喂回去影响它下一步创建什么。关键在于这四样单独哪个都不够。一个只会造不会管的 skill 创建者就是个囤积癖;一个只会管不会评的管理者分不清好 skill 和垃圾。MUSE 把四样接在一起。
这正好落进一个攒了一整个月的集群里,自己改进自己的 agent,而不是干等下一个模型发布。我们看过 MOSS 改写自己的源代码,也看过别的改自己的提示词。MUSE 在上一层干活,在 skill 这一层,这可能恰恰是甜蜜点,比改提示词更持久,比改自己的代码更安全。
实话实说的保留是,这是一篇框架论文,不是产品,而自我改进的 agent 有一段长长的黑历史,benchmark 里光鲜,野外一碰就碎。但方向是对的那个。skill 浪潮的终局不是一个更大的人写 skill 市场,而是 agent 自己长出 skill,还不用你管就把这堆东西收拾好。
论文:arxiv.org/abs/2605.27366
评论