2026年4月30日BenchmarkSkillsResearch

SkillLearnBench 给 continual learning 当头一棒

SkillLearnBench 是第一个像样的 benchmark,专门回答每个 Agent 团队挥手两年的那个问题:你的 Agent 真的能从自己的经验里学到 skill 然后复用吗?这篇论文的答案是:不行,至少现在不行——而这正是有用的部分。

配置是 20 个经过验证的 skill 依赖任务,跨 15 个子领域,取自真实世界的 skill taxonomy,不是合成玩具田。评估分三层——skill 质量(Agent 生成的 skill 本身好不好用)、执行轨迹(按没按计划走)、最终任务结果。作者把最近的 continual learning 方法都丢进来:one-shot 学习、self-feedback、teacher feedback、专门的 skill 创造器。

结论:每个方法都打过 no-skill 基线,确认 continual learning 不是没用。但没有任何方法在所有任务和 LLM 上都赢。更糟的是,换更大的 LLM 也不稳定地有帮助。这种结果初听很无聊,但越想越扎心。意思是 "等 GPT-6 就行" 不是一个 continual learning 策略。瓶颈在学习循环本身,不在底下的模型。

对任何在做 "会越用越好" 的 Agent 的团队,实操含义是:别再以为更聪明的 base model 会救你那个 skill 库。机制本身——什么时候抽取 skill、怎么测试、什么时候删一个坏的、什么时候在合适的时机 retrieve——是它自己的研究问题。Karpathy 一直在说这件事;SkillLearnBench 是第一个让你能量化谁真的在解的 benchmark。https://arxiv.org/abs/2604.20087
← 上一篇
Gemini Deep Research 学会说 MCP
下一篇 →
EvoAgent — 给 Skill 加上演化元数据
← 返回所有文章

评论

加载中...
>_