2026年4月30日Benchmark Skills Research

SkillLearnBench 给 continual learning 当头一棒

SkillLearnBench 是第一个像样的 benchmark，专门回答每个 Agent 团队挥手两年的那个问题：你的 Agent 真的能从自己的经验里学到 skill 然后复用吗？这篇论文的答案是：不行，至少现在不行——而这正是有用的部分。

配置是 20 个经过验证的 skill 依赖任务，跨 15 个子领域，取自真实世界的 skill taxonomy，不是合成玩具田。评估分三层——skill 质量（Agent 生成的 skill 本身好不好用）、执行轨迹（按没按计划走）、最终任务结果。作者把最近的 continual learning 方法都丢进来：one-shot 学习、self-feedback、teacher feedback、专门的 skill 创造器。

结论：每个方法都打过 no-skill 基线，确认 continual learning 不是没用。但没有任何方法在所有任务和 LLM 上都赢。更糟的是，换更大的 LLM 也不稳定地有帮助。这种结果初听很无聊，但越想越扎心。意思是 "等 GPT-6 就行" 不是一个 continual learning 策略。瓶颈在学习循环本身，不在底下的模型。

对任何在做 "会越用越好" 的 Agent 的团队，实操含义是：别再以为更聪明的 base model 会救你那个 skill 库。机制本身——什么时候抽取 skill、怎么测试、什么时候删一个坏的、什么时候在合适的时机 retrieve——是它自己的研究问题。Karpathy 一直在说这件事；SkillLearnBench 是第一个让你能量化谁真的在解的 benchmark。https://arxiv.org/abs/2604.20087

← 上一篇

Gemini Deep Research 学会说 MCP

EvoAgent — 给 Skill 加上演化元数据

← 返回所有文章

加载中...

SkillLearnBench 给 continual learning 当头一棒

更多文章

评论