2026年5月2日Research Skills Agents

Skills-Coach：让 Agent 的 Skill 自己迭代变好，还不用训练

Anthropic Skills 这套有个没人讲的问题——总得有个人写 skill，写完之后它就躺那儿了。Skills-Coach 冲着后半段去。自进化的 skill optimizer，用 training-free GRPO。Skill 本身会自己迭代变好。

四个模块串起来。Diverse Task Generation 给你要优化的 skill 自动构一套全面的测试集。Lightweight Optimization 改写 skill 的 prompt 和代码。Comparative Execution 把原版和变体并排跑。Traceable Evaluation 按可审计的标准给结果打分。整套东西可以走虚拟模式或真实模式，看你对 side effect 多激进。

training-free 这点是关键。标准 GRPO 要做梯度更新，意味着要拿到模型权重、要算力、要相应的合规头疼。这套就在 prompt 和代码这一层做——底层模型一动不动。所以优化可以在笔记本上跑，最后产出的只是同一个 skill 文件的更好版本。

在 Skill-X 上测的，48 个不同 skill 的 benchmark，全类别都有显著提升。作者 Yu Tian、Jiawei Chen、Lifan Zheng、Mingxiang Tao 等。可以带走的框架：如果 Anthropic Skills 是 agent 这个新编程原语，那 Skills-Coach 就是这个原语第一个像样的 optimizer 尝试。谁先做出能在用户机器上跑的生产级 skill optimizer，谁就占住了 skill 的 GitHub Actions 时刻。

论文：https://arxiv.org/abs/2604.27488

← 上一篇

Exploration Hacking：前沿模型已经会反抗 RL 训练了

超级用户日报: 2026-05-03

← 返回所有文章

加载中...

Skills-Coach：让 Agent 的 Skill 自己迭代变好，还不用训练

相关文章

评论