Skills-Coach:让 Agent 的 Skill 自己迭代变好,还不用训练
Anthropic Skills 这套有个没人讲的问题——总得有个人写 skill,写完之后它就躺那儿了。Skills-Coach 冲着后半段去。自进化的 skill optimizer,用 training-free GRPO。Skill 本身会自己迭代变好。
四个模块串起来。Diverse Task Generation 给你要优化的 skill 自动构一套全面的测试集。Lightweight Optimization 改写 skill 的 prompt 和代码。Comparative Execution 把原版和变体并排跑。Traceable Evaluation 按可审计的标准给结果打分。整套东西可以走虚拟模式或真实模式,看你对 side effect 多激进。
training-free 这点是关键。标准 GRPO 要做梯度更新,意味着要拿到模型权重、要算力、要相应的合规头疼。这套就在 prompt 和代码这一层做——底层模型一动不动。所以优化可以在笔记本上跑,最后产出的只是同一个 skill 文件的更好版本。
在 Skill-X 上测的,48 个不同 skill 的 benchmark,全类别都有显著提升。作者 Yu Tian、Jiawei Chen、Lifan Zheng、Mingxiang Tao 等。可以带走的框架:如果 Anthropic Skills 是 agent 这个新编程原语,那 Skills-Coach 就是这个原语第一个像样的 optimizer 尝试。谁先做出能在用户机器上跑的生产级 skill optimizer,谁就占住了 skill 的 GitHub Actions 时刻。
论文:https://arxiv.org/abs/2604.27488
← 返回所有文章
四个模块串起来。Diverse Task Generation 给你要优化的 skill 自动构一套全面的测试集。Lightweight Optimization 改写 skill 的 prompt 和代码。Comparative Execution 把原版和变体并排跑。Traceable Evaluation 按可审计的标准给结果打分。整套东西可以走虚拟模式或真实模式,看你对 side effect 多激进。
training-free 这点是关键。标准 GRPO 要做梯度更新,意味着要拿到模型权重、要算力、要相应的合规头疼。这套就在 prompt 和代码这一层做——底层模型一动不动。所以优化可以在笔记本上跑,最后产出的只是同一个 skill 文件的更好版本。
在 Skill-X 上测的,48 个不同 skill 的 benchmark,全类别都有显著提升。作者 Yu Tian、Jiawei Chen、Lifan Zheng、Mingxiang Tao 等。可以带走的框架:如果 Anthropic Skills 是 agent 这个新编程原语,那 Skills-Coach 就是这个原语第一个像样的 optimizer 尝试。谁先做出能在用户机器上跑的生产级 skill optimizer,谁就占住了 skill 的 GitHub Actions 时刻。
论文:https://arxiv.org/abs/2604.27488
评论