2026年6月3日Research Skills RL

SkillAdaptor：精确定位是哪个技能出了错，不动其他任何东西

处理agent技能失败的粗暴方式是：只要轨迹失败了，就更新相关技能。问题在于轨迹很长，失败发生在中间某个步骤，全轨迹更新会把修复稀释到那些其实没有问题的步骤上。来自蚂蚁集团的新论文SkillAdaptor（arXiv 2606.01311）做了更精准的事情：给定一条失败轨迹，它找到第一个可操作的故障步骤，把责任追溯到具体的候选技能，在显式验收检查下做定向更新。基础模型全程冻结。

在WebShop、PinchBench、Claw-Eval三个基准上，用Kimi-K2.5、GLM-5、GPT-5.2三个差异很大的模型测试，改进最明显的地方恰好是粗粒度技能更新方法最容易过拟合的地方：PinchBench平均分+1.5个百分点，Claw-Eval+1.8。数字看起来不大，但会累积。一个在生产里持续积累技能的agent系统，如果更新不够精准，几个月后性能就会漂移。

这个框架无需训练，设计上可以插入OpenClaw类的agent框架，不是研究原型而是立即可用的方案。论文地址：https://arxiv.org/abs/2606.01311

← 上一篇

headroom：进LLM之前先压缩，token消耗降60-95%

Gemma 4 12B 把能跑 agent 的多模态模型塞进了笔记本

← 返回所有文章

加载中...

SkillAdaptor：精确定位是哪个技能出了错，不动其他任何东西

相关文章

评论