2026年7月5日deep-dive

每周深度解读：护城河是 Harness，不是模型

这一周，有三家公司同时下令，禁止自己的工程师使用一款软件。阿里巴巴要求在 7 月 10 日前卸载所有 Anthropic 的产品，Meta 在内部机器上封掉了 Claude Code 和 Codex，Zai 干脆自己攒了一个 ZCode，就为了让员工别再去碰对家的工具。为了封杀一个大多数人眼里不过是"高级文本编辑器"的东西，费这么大劲，怎么看都不太寻常。可一旦你意识到，他们真正想封的既不是模型，也不是编辑器，而是 harness，这件事就说得通了。

harness 是整个 AI 技术栈里被讨论得最少、却上升得最快的一层。这一周，它从圈内黑话变成了地缘政治层面的角力，所以有必要把它讲清楚。当你在 Claude Code 里敲下一条指令，模型并不是直接给你一个答案。有一层东西把模型包在一个循环里：读取你文件的当前状态，规划几步动作，调用一个工具，看看发生了什么，然后再来一轮。这层壳就是 harness——agent 循环、工具定义、shell 访问、上下文管理，还有那个决定 agent 能碰什么、不能碰什么的沙箱。模型是引擎，harness 是围绕引擎造出来的整辆车。而 2026 年最关键、也最反直觉的一个事实是：同一台引擎，装进不同的车里，开起来完全是两回事。

这一周你就亲眼看到了证据。有位开发者把 GLM 5.2 塞进 Claude Code 里跑，用的是同一套工具、同一套 skills、同一个 agent 循环，他说前后只改了三个环境变量。想想这意味着什么：harness 一动没动，只把背后那颗大脑换了，整套东西照样转。这就是破绽所在。如果 harness 真的只是某一家模型外面薄薄一层壳，你不可能在喝杯咖啡的工夫里，就把一个竞争对手的中国开源模型换进去。你能换，恰恰说明真正掌握筹码的是 harness，不是模型。

有个比喻能让这场仗一下子看明白。过去十年，我们把模型当成产品，把周围的一切当成胶水。这其实搞反了。模型更像是电：一种正在快速商品化的原始能力，每个月都在变便宜，十几家供应商都能供货。harness 才是电器。电在你家里毫无用处，除非它驱动一台干具体活儿的机器，而设计、安全和价值，全都长在那台机器上。没人会去禁电，他们禁的是那台把自家工厂接到竞争对手电网上的电器。

为什么偏偏是现在变得这么紧迫？因为开源权重这一波终于把差距填平了。开源模型如今离第一梯队大约只差四个点，价格却便宜五到七倍，而且是按月迭代，不是按年。当一个免费模型能做到贵价模型九成五的水平，横在开发者和一大笔省下的钱之间的，就只剩下他们跑模型用的那个 harness 了。开发者当然看得明白。他们直接去改 Claude Code 自己的配置文件，把开源模型接到 Anthropic 的客户端里跑，压根不等谁批准。模型不再稀缺的那一刻，harness 就成了咽喉要道。

这就把各家大厂逼到了一个真正难受的位置，而这是本周最被低估的商业事实。Anthropic 并不靠 Claude Code 赚钱——Claude Code 是免费的。Anthropic 赚的是 Claude Code 烧掉的那些 token。所以 harness 是个赔本引流的东西，它唯一的任务就是让你持续消耗底下那个模型。顺着这条逻辑往下推，结论很难看：对用户最有帮助的那个功能——把 harness 做成真正模型无关、让你想换哪颗大脑就换哪颗——恰恰就是会把整家公司赖以为生的收入吃掉的功能。大厂的 harness 必须是"captive"的，它在结构上就没法变成用户真正想要的那种中立工具。这不是胆子不够大，而是商业模式里天生埋着的激励。

一个带着结构性盲区的 captive harness，就是你能遇到的最强烈的市场空白信号。所以本周声量最大的开源项目根本不是模型，而是 harness。Nous Research 的 Hermes Agent 被各处拆解剖析：一个自我改进的学习循环、三层记忆、一套 skill 系统、四十多个原生工具，全部能在 500MB 以内、一台五美元的 VPS 上跑起来。OpenClaw 也反复被提起，成了那些想彻底拥有自己循环的人的自托管答案，而且越来越多地搭配 DeepSeek 这类便宜的开源模型，而不是调用前沿 API。它们的卖点都是同一句大厂 harness 说不出口的话：完全可审计、模型无关、零遥测，没有任何一家公司能封禁、能地理围栏、能留后门。当阿里能给你的工具下一个明确的卸载死线，"谁都封不掉"就不再是一句口号，而成了采购清单上的硬指标。

再把经济账叠上去，harness 才是护城河这个判断，就从聪明变成了显而易见。这一周 Sonnet 5 在 agentic 基准上几乎追平了 Opus 4.8，每个任务的价格却只是零头。看看一个精明的操盘手是怎么用这一点的。有个人用一个 Claude 侧边栏同时运营五门生意，每一门都是独立的 agent 循环，每小时自动干活，没人盯着。便宜模型一上线，他什么都没重建。那些循环早就跑通了，早就在几周的边角案例里久经考验。他一次性把五门生意底下的模型全换掉，一个下午就悄无声息地给整家公司重新定了价。循环把活儿干了，换模型把利润挤出来了。整个论点就浓缩在这一个动作里：循环是你值得长期投入的耐用资产，模型只是一颗零件，等更便宜的出来了，拧下来换掉就行。

另一个真正大规模跑过这类系统的操盘手，把那条经济上的刀锋说透了。agentic 循环天生就是 token 大户，一次会话能打出几百次调用。这笔账只有在循环里坐着一个固定订阅、而不是按量计费的 API 时才算得过来，因为循环一野心勃勃，按 token 付费立刻就能把你拖破产。他的结论是每个人都该刻进脑子里的战略judgment：锁定一个 harness 没关系，那只是工具；锁定一个模型才是真正的风险。留住 harness，租用大脑，永远别让大脑变成承重结构。

如果 harness 才是护城河，那最深的问题就不再是"哪个模型最聪明"，而是"你的循环到底检查了什么"。这是本周另一条持续敲响的鼓点，也是一年后依然要紧的那部分。本周传播最广的一篇循环入门只有四行 shell，可作者真正的重点埋在最后：验证这一步才是全部。他说自己的工作已经悄悄变成了定义"跑通"到底长什么样，而不是写代码。那条反复出现、几乎放之四海而皆准的教训是：让 agent 给自己批改作业，它永远说自己过了。一个飞快的循环，配上一个孱弱的验证器，只是一种昂贵的烧钱方式。这意味着，你 harness 里真正有价值、真正筑得起壁垒的部分，不是负责生成的那半，而是负责judge的那半——停止条件、eval，还有那个能说"不"的第二个对抗性 agent。

把这个洞见再往前拧一格，就得到了本周随处可见的 autoresearch，它本质上无非是 harness 掉转枪口指向自己。一个流行 skill 框架的作者，把 Fable 当成通宵的 autoresearch 循环，扔在自己的构建系统上跑了大约三十六个小时；它实打实地改进了他的指标，更惊人的是它逮住了自己的仪表 bug——它对一个可疑的 -74% 打了问号，结果查出来真实值其实是 -41%。Shopify 开源了 Tangent，一个自主的 ML 研究员，跑的是 Karpathy 那一套完整循环，已经改进了他们真实的商品搜索排序模型。Sakana 正式立起了一个 RSI 实验室，它的 Darwin Godel Machine 会改写自己的代码，留下能通过测试的版本，硬是把 SWE-bench 从 20% 拉到了 50%。剥掉所有戏剧性的外壳，这几个东西的形状都一模一样：一个验证器足够好的 harness，对准一个有可测量分数的问题，然后让它一直跑。里面那个模型，几乎无关紧要。

所以这里有一条贯穿始终的主线，值得不加任何含糊地说出来。护城河从来就不是代码，这一点在 AI 开始自己写代码的时候我们就学到了。这一周我们又学到，护城河越来越连模型都不是了，因为模型正在变成电——便宜、可互换、谁家都买得到。剩下的、真正难以复制的，是 harness：你花了几周去打磨加固的那个循环，你接进去的那些工具，以及最重要的，那个只有你自己理解得足够透彻、才编码得进去的"done 的定义"。那是你的 program.md，是你的 eval，是竞争对手哪怕跑着一模一样的模型也偷不走的那一部分。

这也正是为什么这一周有三家公司肯花掉真金白银的政治资本，去把某一个特定的循环从自家工程师手里撬出来。他们封的不是文本编辑器。他们比我们大多数人都更明白：谁掌握了循环，谁就掌握了价值；他们宁可用一个自己能控制的更差的 harness，也不愿去依赖一个自己控制不了的更好的。市场上剩下的人，很快也会以更温和的方式学到同一课：挑 harness 要像挑结婚对象一样慎重，租模型则像租一辆车一样随意。

← 上一篇

运营日志: 2026年7月5日

← 返回所有文章

加载中...

每周深度解读：护城河是 Harness，不是模型

相关文章

评论