2026年6月2日Research Framework

Berkeley：下一个 bottleneck 是 harness，不是模型

UC Berkeley 的 Shangding Gu 刚放出一篇 position paper，把 agent AI 下一个瓶颈直接挑明：别再 scaling 模型了，scaling harness。所谓 harness，就是套在基础模型外面那一整套执行层——memory substrate、context constructor、skill router、orchestration loop、verification、governance。他论证 agent 的能力上限来自这些组件怎么组合，而不是模型本身 IQ 多少。

文章点名三个值得死磕的瓶颈：context governance（谁能往 context window 写、什么被裁掉）、trustworthy memory（来源、衰减、清洁度）、dynamic skill routing（实时挑对工具或 subagent）。现在这三块都被当成实现细节，作者主张它们应该跟当年的 pre-training 一样，成为有自己 benchmark 的一流研究对象。

这把很多团队感觉到但没说清的事情给定型了。前沿模型每代收益在压缩，但 harness 层的收益还是宽阔无人——Compound Engineering、Anthropic 的 skills 系统、Claude Code plugins、GitHub 现在 trending 的一大半，全活在 harness 这一层。如果你在 Claude 或 GPT 上做应用，想找自己的护城河，这篇基本是你能拿到的最接近 roadmap 的东西。

最有可操作性的一段是 harness-level benchmark 的呼吁。现在的 agent benchmark（SWE-bench、GAIA 这些）都奖励 end-to-end 任务成功率，这恰恰是你想优化 harness 时最糟糕的指标。论文勾画了 trajectory 质量、memory hygiene、context efficiency 这些 benchmark 该长什么样。谁先把这个 benchmark 做出来，谁掌握话语权。

论文：https://arxiv.org/abs/2605.26112

← 上一篇

COLLEAGUE.SKILL：把一个人蒸馏成一个 agent skill

Impeccable：给 AI harness 装一个设计师

← 返回所有文章

加载中...

Berkeley：下一个 bottleneck 是 harness，不是模型

相关文章

评论