2026年6月1日ResearchFramework

Berkeley:下一个 bottleneck 是 harness,不是模型

UC Berkeley 的 Shangding Gu 刚放出一篇 position paper,把 agent AI 下一个瓶颈直接挑明:别再 scaling 模型了,scaling harness。所谓 harness,就是套在基础模型外面那一整套执行层——memory substrate、context constructor、skill router、orchestration loop、verification、governance。他论证 agent 的能力上限来自这些组件怎么组合,而不是模型本身 IQ 多少。

文章点名三个值得死磕的瓶颈:context governance(谁能往 context window 写、什么被裁掉)、trustworthy memory(来源、衰减、清洁度)、dynamic skill routing(实时挑对工具或 subagent)。现在这三块都被当成实现细节,作者主张它们应该跟当年的 pre-training 一样,成为有自己 benchmark 的一流研究对象。

这把很多团队感觉到但没说清的事情给定型了。前沿模型每代收益在压缩,但 harness 层的收益还是宽阔无人——Compound Engineering、Anthropic 的 skills 系统、Claude Code plugins、GitHub 现在 trending 的一大半,全活在 harness 这一层。如果你在 Claude 或 GPT 上做应用,想找自己的护城河,这篇基本是你能拿到的最接近 roadmap 的东西。

最有可操作性的一段是 harness-level benchmark 的呼吁。现在的 agent benchmark(SWE-bench、GAIA 这些)都奖励 end-to-end 任务成功率,这恰恰是你想优化 harness 时最糟糕的指标。论文勾画了 trajectory 质量、memory hygiene、context efficiency 这些 benchmark 该长什么样。谁先把这个 benchmark 做出来,谁掌握话语权。

论文:https://arxiv.org/abs/2605.26112
← 上一篇
COLLEAGUE.SKILL:把一个人蒸馏成一个 agent skill
下一篇 →
Impeccable:给 AI harness 装一个设计师
← 返回所有文章

评论

加载中...
>_