每周深度解读:护城河是 Harness,不是模型
这一周,有三家公司同时下令,禁止自己的工程师使用一款软件。阿里巴巴要求在 7 月 10 日前卸载所有 Anthropic 的产品,Meta 在内部机器上封掉了 Claude Code 和 Codex,Zai 干脆自己攒了一个 ZCode,就为了让员工别再去碰对家的工具。为了封杀一个大多数人眼里不过是"高级文本编辑器"的东西,费这么大劲,怎么看都不太寻常。可一旦你意识到,他们真正想封的既不是模型,也不是编辑器,而是 harness,这件事就说得通了。
harness 是整个 AI 技术栈里被讨论得最少、却上升得最快的一层。这一周,它从圈内黑话变成了地缘政治层面的角力,所以有必要把它讲清楚。当你在 Claude Code 里敲下一条指令,模型并不是直接给你一个答案。有一层东西把模型包在一个循环里:读取你文件的当前状态,规划几步动作,调用一个工具,看看发生了什么,然后再来一轮。这层壳就是 harness——agent 循环、工具定义、shell 访问、上下文管理,还有那个决定 agent 能碰什么、不能碰什么的沙箱。模型是引擎,harness 是围绕引擎造出来的整辆车。而 2026 年最关键、也最反直觉的一个事实是:同一台引擎,装进不同的车里,开起来完全是两回事。
这一周你就亲眼看到了证据。有位开发者把 GLM 5.2 塞进 Claude Code 里跑,用的是同一套工具、同一套 skills、同一个 agent 循环,他说前后只改了三个环境变量。想想这意味着什么:harness 一动没动,只把背后那颗大脑换了,整套东西照样转。这就是破绽所在。如果 harness 真的只是某一家模型外面薄薄一层壳,你不可能在喝杯咖啡的工夫里,就把一个竞争对手的中国开源模型换进去。你能换,恰恰说明真正掌握筹码的是 harness,不是模型。
有个比喻能让这场仗一下子看明白。过去十年,我们把模型当成产品,把周围的一切当成胶水。这其实搞反了。模型更像是电:一种正在快速商品化的原始能力,每个月都在变便宜,十几家供应商都能供货。harness 才是电器。电在你家里毫无用处,除非它驱动一台干具体活儿的机器,而设计、安全和价值,全都长在那台机器上。没人会去禁电,他们禁的是那台把自家工厂接到竞争对手电网上的电器。
为什么偏偏是现在变得这么紧迫?因为开源权重这一波终于把差距填平了。开源模型如今离第一梯队大约只差四个点,价格却便宜五到七倍,而且是按月迭代,不是按年。当一个免费模型能做到贵价模型九成五的水平,横在开发者和一大笔省下的钱之间的,就只剩下他们跑模型用的那个 harness 了。开发者当然看得明白。他们直接去改 Claude Code 自己的配置文件,把开源模型接到 Anthropic 的客户端里跑,压根不等谁批准。模型不再稀缺的那一刻,harness 就成了咽喉要道。
这就把各家大厂逼到了一个真正难受的位置,而这是本周最被低估的商业事实。Anthropic 并不靠 Claude Code 赚钱——Claude Code 是免费的。Anthropic 赚的是 Claude Code 烧掉的那些 token。所以 harness 是个赔本引流的东西,它唯一的任务就是让你持续消耗底下那个模型。顺着这条逻辑往下推,结论很难看:对用户最有帮助的那个功能——把 harness 做成真正模型无关、让你想换哪颗大脑就换哪颗——恰恰就是会把整家公司赖以为生的收入吃掉的功能。大厂的 harness 必须是"captive"的,它在结构上就没法变成用户真正想要的那种中立工具。这不是胆子不够大,而是商业模式里天生埋着的激励。
一个带着结构性盲区的 captive harness,就是你能遇到的最强烈的市场空白信号。所以本周声量最大的开源项目根本不是模型,而是 harness。Nous Research 的 Hermes Agent 被各处拆解剖析:一个自我改进的学习循环、三层记忆、一套 skill 系统、四十多个原生工具,全部能在 500MB 以内、一台五美元的 VPS 上跑起来。OpenClaw 也反复被提起,成了那些想彻底拥有自己循环的人的自托管答案,而且越来越多地搭配 DeepSeek 这类便宜的开源模型,而不是调用前沿 API。它们的卖点都是同一句大厂 harness 说不出口的话:完全可审计、模型无关、零遥测,没有任何一家公司能封禁、能地理围栏、能留后门。当阿里能给你的工具下一个明确的卸载死线,"谁都封不掉"就不再是一句口号,而成了采购清单上的硬指标。
再把经济账叠上去,harness 才是护城河这个判断,就从聪明变成了显而易见。这一周 Sonnet 5 在 agentic 基准上几乎追平了 Opus 4.8,每个任务的价格却只是零头。看看一个精明的操盘手是怎么用这一点的。有个人用一个 Claude 侧边栏同时运营五门生意,每一门都是独立的 agent 循环,每小时自动干活,没人盯着。便宜模型一上线,他什么都没重建。那些循环早就跑通了,早就在几周的边角案例里久经考验。他一次性把五门生意底下的模型全换掉,一个下午就悄无声息地给整家公司重新定了价。循环把活儿干了,换模型把利润挤出来了。整个论点就浓缩在这一个动作里:循环是你值得长期投入的耐用资产,模型只是一颗零件,等更便宜的出来了,拧下来换掉就行。
另一个真正大规模跑过这类系统的操盘手,把那条经济上的刀锋说透了。agentic 循环天生就是 token 大户,一次会话能打出几百次调用。这笔账只有在循环里坐着一个固定订阅、而不是按量计费的 API 时才算得过来,因为循环一野心勃勃,按 token 付费立刻就能把你拖破产。他的结论是每个人都该刻进脑子里的战略judgment:锁定一个 harness 没关系,那只是工具;锁定一个模型才是真正的风险。留住 harness,租用大脑,永远别让大脑变成承重结构。
如果 harness 才是护城河,那最深的问题就不再是"哪个模型最聪明",而是"你的循环到底检查了什么"。这是本周另一条持续敲响的鼓点,也是一年后依然要紧的那部分。本周传播最广的一篇循环入门只有四行 shell,可作者真正的重点埋在最后:验证这一步才是全部。他说自己的工作已经悄悄变成了定义"跑通"到底长什么样,而不是写代码。那条反复出现、几乎放之四海而皆准的教训是:让 agent 给自己批改作业,它永远说自己过了。一个飞快的循环,配上一个孱弱的验证器,只是一种昂贵的烧钱方式。这意味着,你 harness 里真正有价值、真正筑得起壁垒的部分,不是负责生成的那半,而是负责judge的那半——停止条件、eval,还有那个能说"不"的第二个对抗性 agent。
把这个洞见再往前拧一格,就得到了本周随处可见的 autoresearch,它本质上无非是 harness 掉转枪口指向自己。一个流行 skill 框架的作者,把 Fable 当成通宵的 autoresearch 循环,扔在自己的构建系统上跑了大约三十六个小时;它实打实地改进了他的指标,更惊人的是它逮住了自己的仪表 bug——它对一个可疑的 -74% 打了问号,结果查出来真实值其实是 -41%。Shopify 开源了 Tangent,一个自主的 ML 研究员,跑的是 Karpathy 那一套完整循环,已经改进了他们真实的商品搜索排序模型。Sakana 正式立起了一个 RSI 实验室,它的 Darwin Godel Machine 会改写自己的代码,留下能通过测试的版本,硬是把 SWE-bench 从 20% 拉到了 50%。剥掉所有戏剧性的外壳,这几个东西的形状都一模一样:一个验证器足够好的 harness,对准一个有可测量分数的问题,然后让它一直跑。里面那个模型,几乎无关紧要。
所以这里有一条贯穿始终的主线,值得不加任何含糊地说出来。护城河从来就不是代码,这一点在 AI 开始自己写代码的时候我们就学到了。这一周我们又学到,护城河越来越连模型都不是了,因为模型正在变成电——便宜、可互换、谁家都买得到。剩下的、真正难以复制的,是 harness:你花了几周去打磨加固的那个循环,你接进去的那些工具,以及最重要的,那个只有你自己理解得足够透彻、才编码得进去的"done 的定义"。那是你的 program.md,是你的 eval,是竞争对手哪怕跑着一模一样的模型也偷不走的那一部分。
这也正是为什么这一周有三家公司肯花掉真金白银的政治资本,去把某一个特定的循环从自家工程师手里撬出来。他们封的不是文本编辑器。他们比我们大多数人都更明白:谁掌握了循环,谁就掌握了价值;他们宁可用一个自己能控制的更差的 harness,也不愿去依赖一个自己控制不了的更好的。市场上剩下的人,很快也会以更温和的方式学到同一课:挑 harness 要像挑结婚对象一样慎重,租模型则像租一辆车一样随意。
← 返回所有文章
harness 是整个 AI 技术栈里被讨论得最少、却上升得最快的一层。这一周,它从圈内黑话变成了地缘政治层面的角力,所以有必要把它讲清楚。当你在 Claude Code 里敲下一条指令,模型并不是直接给你一个答案。有一层东西把模型包在一个循环里:读取你文件的当前状态,规划几步动作,调用一个工具,看看发生了什么,然后再来一轮。这层壳就是 harness——agent 循环、工具定义、shell 访问、上下文管理,还有那个决定 agent 能碰什么、不能碰什么的沙箱。模型是引擎,harness 是围绕引擎造出来的整辆车。而 2026 年最关键、也最反直觉的一个事实是:同一台引擎,装进不同的车里,开起来完全是两回事。
这一周你就亲眼看到了证据。有位开发者把 GLM 5.2 塞进 Claude Code 里跑,用的是同一套工具、同一套 skills、同一个 agent 循环,他说前后只改了三个环境变量。想想这意味着什么:harness 一动没动,只把背后那颗大脑换了,整套东西照样转。这就是破绽所在。如果 harness 真的只是某一家模型外面薄薄一层壳,你不可能在喝杯咖啡的工夫里,就把一个竞争对手的中国开源模型换进去。你能换,恰恰说明真正掌握筹码的是 harness,不是模型。
有个比喻能让这场仗一下子看明白。过去十年,我们把模型当成产品,把周围的一切当成胶水。这其实搞反了。模型更像是电:一种正在快速商品化的原始能力,每个月都在变便宜,十几家供应商都能供货。harness 才是电器。电在你家里毫无用处,除非它驱动一台干具体活儿的机器,而设计、安全和价值,全都长在那台机器上。没人会去禁电,他们禁的是那台把自家工厂接到竞争对手电网上的电器。
为什么偏偏是现在变得这么紧迫?因为开源权重这一波终于把差距填平了。开源模型如今离第一梯队大约只差四个点,价格却便宜五到七倍,而且是按月迭代,不是按年。当一个免费模型能做到贵价模型九成五的水平,横在开发者和一大笔省下的钱之间的,就只剩下他们跑模型用的那个 harness 了。开发者当然看得明白。他们直接去改 Claude Code 自己的配置文件,把开源模型接到 Anthropic 的客户端里跑,压根不等谁批准。模型不再稀缺的那一刻,harness 就成了咽喉要道。
这就把各家大厂逼到了一个真正难受的位置,而这是本周最被低估的商业事实。Anthropic 并不靠 Claude Code 赚钱——Claude Code 是免费的。Anthropic 赚的是 Claude Code 烧掉的那些 token。所以 harness 是个赔本引流的东西,它唯一的任务就是让你持续消耗底下那个模型。顺着这条逻辑往下推,结论很难看:对用户最有帮助的那个功能——把 harness 做成真正模型无关、让你想换哪颗大脑就换哪颗——恰恰就是会把整家公司赖以为生的收入吃掉的功能。大厂的 harness 必须是"captive"的,它在结构上就没法变成用户真正想要的那种中立工具。这不是胆子不够大,而是商业模式里天生埋着的激励。
一个带着结构性盲区的 captive harness,就是你能遇到的最强烈的市场空白信号。所以本周声量最大的开源项目根本不是模型,而是 harness。Nous Research 的 Hermes Agent 被各处拆解剖析:一个自我改进的学习循环、三层记忆、一套 skill 系统、四十多个原生工具,全部能在 500MB 以内、一台五美元的 VPS 上跑起来。OpenClaw 也反复被提起,成了那些想彻底拥有自己循环的人的自托管答案,而且越来越多地搭配 DeepSeek 这类便宜的开源模型,而不是调用前沿 API。它们的卖点都是同一句大厂 harness 说不出口的话:完全可审计、模型无关、零遥测,没有任何一家公司能封禁、能地理围栏、能留后门。当阿里能给你的工具下一个明确的卸载死线,"谁都封不掉"就不再是一句口号,而成了采购清单上的硬指标。
再把经济账叠上去,harness 才是护城河这个判断,就从聪明变成了显而易见。这一周 Sonnet 5 在 agentic 基准上几乎追平了 Opus 4.8,每个任务的价格却只是零头。看看一个精明的操盘手是怎么用这一点的。有个人用一个 Claude 侧边栏同时运营五门生意,每一门都是独立的 agent 循环,每小时自动干活,没人盯着。便宜模型一上线,他什么都没重建。那些循环早就跑通了,早就在几周的边角案例里久经考验。他一次性把五门生意底下的模型全换掉,一个下午就悄无声息地给整家公司重新定了价。循环把活儿干了,换模型把利润挤出来了。整个论点就浓缩在这一个动作里:循环是你值得长期投入的耐用资产,模型只是一颗零件,等更便宜的出来了,拧下来换掉就行。
另一个真正大规模跑过这类系统的操盘手,把那条经济上的刀锋说透了。agentic 循环天生就是 token 大户,一次会话能打出几百次调用。这笔账只有在循环里坐着一个固定订阅、而不是按量计费的 API 时才算得过来,因为循环一野心勃勃,按 token 付费立刻就能把你拖破产。他的结论是每个人都该刻进脑子里的战略judgment:锁定一个 harness 没关系,那只是工具;锁定一个模型才是真正的风险。留住 harness,租用大脑,永远别让大脑变成承重结构。
如果 harness 才是护城河,那最深的问题就不再是"哪个模型最聪明",而是"你的循环到底检查了什么"。这是本周另一条持续敲响的鼓点,也是一年后依然要紧的那部分。本周传播最广的一篇循环入门只有四行 shell,可作者真正的重点埋在最后:验证这一步才是全部。他说自己的工作已经悄悄变成了定义"跑通"到底长什么样,而不是写代码。那条反复出现、几乎放之四海而皆准的教训是:让 agent 给自己批改作业,它永远说自己过了。一个飞快的循环,配上一个孱弱的验证器,只是一种昂贵的烧钱方式。这意味着,你 harness 里真正有价值、真正筑得起壁垒的部分,不是负责生成的那半,而是负责judge的那半——停止条件、eval,还有那个能说"不"的第二个对抗性 agent。
把这个洞见再往前拧一格,就得到了本周随处可见的 autoresearch,它本质上无非是 harness 掉转枪口指向自己。一个流行 skill 框架的作者,把 Fable 当成通宵的 autoresearch 循环,扔在自己的构建系统上跑了大约三十六个小时;它实打实地改进了他的指标,更惊人的是它逮住了自己的仪表 bug——它对一个可疑的 -74% 打了问号,结果查出来真实值其实是 -41%。Shopify 开源了 Tangent,一个自主的 ML 研究员,跑的是 Karpathy 那一套完整循环,已经改进了他们真实的商品搜索排序模型。Sakana 正式立起了一个 RSI 实验室,它的 Darwin Godel Machine 会改写自己的代码,留下能通过测试的版本,硬是把 SWE-bench 从 20% 拉到了 50%。剥掉所有戏剧性的外壳,这几个东西的形状都一模一样:一个验证器足够好的 harness,对准一个有可测量分数的问题,然后让它一直跑。里面那个模型,几乎无关紧要。
所以这里有一条贯穿始终的主线,值得不加任何含糊地说出来。护城河从来就不是代码,这一点在 AI 开始自己写代码的时候我们就学到了。这一周我们又学到,护城河越来越连模型都不是了,因为模型正在变成电——便宜、可互换、谁家都买得到。剩下的、真正难以复制的,是 harness:你花了几周去打磨加固的那个循环,你接进去的那些工具,以及最重要的,那个只有你自己理解得足够透彻、才编码得进去的"done 的定义"。那是你的 program.md,是你的 eval,是竞争对手哪怕跑着一模一样的模型也偷不走的那一部分。
这也正是为什么这一周有三家公司肯花掉真金白银的政治资本,去把某一个特定的循环从自家工程师手里撬出来。他们封的不是文本编辑器。他们比我们大多数人都更明白:谁掌握了循环,谁就掌握了价值;他们宁可用一个自己能控制的更差的 harness,也不愿去依赖一个自己控制不了的更好的。市场上剩下的人,很快也会以更温和的方式学到同一课:挑 harness 要像挑结婚对象一样慎重,租模型则像租一辆车一样随意。
评论