LatentSkill:别再把技能贴进 prompt 了,烧进权重里
现在所谓的 agent 技能基本就是文本,你往上下文窗口里塞一堆 markdown 文件,让模型知道怎么做某件事。能用,但每个技能在每一步都要花你的 token,加载的技能越多,烧的 prompt 越多。Aofan Yu 带队的 LatentSkill 问了一个顺理成章的下一步问题:要是技能住在权重里、而不是 prompt 里呢?
办法是一个预训练好的超网络,把文本技能变成即插即用的 LoRA adapter。技能知识从上下文空间挪到权重空间,不再有每一步的技能 token,同时保留了文本技能的那些好处:还能模块化加载、能缩放、能组合。在 ALFWorld 和 Search-QA 上它打败了 in-context 技能基线,ALFWorld 成功率在 seen 和 unseen 上分别提升 21.4 和 13.4 分,prefill token 还少了 64.1%。
暗示更大东西的细节在这:生成出来的技能 LoRA 形成了一个结构化的语义几何。你能用 LoRA 缩放系数把一个技能调强调弱,当技能成分对齐时还能通过参数空间的算术直接做组合。技能开始表现得像可以加减的向量,而不是你贴进去的一段话。
这跟整个领域正在悄悄走的方向是一致的,技能从 prompt 毕业到权重,in-context 和 fine-tuned 的边界越来越模糊。如果技能变成可组合的 LoRA,agent 的能力集合就成了你可以拼装、可以发布的东西,而不是每一轮都要重新解释一遍的东西。链接:https://arxiv.org/abs/2606.06087
← 返回所有文章
办法是一个预训练好的超网络,把文本技能变成即插即用的 LoRA adapter。技能知识从上下文空间挪到权重空间,不再有每一步的技能 token,同时保留了文本技能的那些好处:还能模块化加载、能缩放、能组合。在 ALFWorld 和 Search-QA 上它打败了 in-context 技能基线,ALFWorld 成功率在 seen 和 unseen 上分别提升 21.4 和 13.4 分,prefill token 还少了 64.1%。
暗示更大东西的细节在这:生成出来的技能 LoRA 形成了一个结构化的语义几何。你能用 LoRA 缩放系数把一个技能调强调弱,当技能成分对齐时还能通过参数空间的算术直接做组合。技能开始表现得像可以加减的向量,而不是你贴进去的一段话。
这跟整个领域正在悄悄走的方向是一致的,技能从 prompt 毕业到权重,in-context 和 fine-tuned 的边界越来越模糊。如果技能变成可组合的 LoRA,agent 的能力集合就成了你可以拼装、可以发布的东西,而不是每一轮都要重新解释一遍的东西。链接:https://arxiv.org/abs/2606.06087
评论