成本感知的编排:AI 这周第一次有了自己的物理学
这周 AI 圈子里只有一个故事。
5 月 28 号 Anthropic 把 Opus 4.8 扔出来,附带的 Dynamic Workflows 让 Claude Code 一句话拉起 100-1000 个 subagent。同一天 Salesforce 发了个工程复盘——一个原本预估 231 天的迁移任务他们 13 天干完了,一个 PR 交了 21 个 endpoint 100% 测试覆盖。第二天 Bun 作者 Jarred Sumner 用同一套东西把 Bun runtime 从 Zig 移植到 Rust——75 万行,每个文件配两名独立 reviewer,11 天从首次 commit 到合入主干,原测试套件 99.8% 通过。
很多人看到这条新闻第一反应是「卧槽 AI 又强了」。我看到的是「工作的基本单位变了」。
过去一年所有「用 AI」的故事都是一个人对着一个 prompt。最大胆的玩家也就是把 prompt 拆成几个 subtask 串起来。现在你打一句话,Claude 自己写一份 JS 编排脚本,扔进 Node vm 沙箱里跑,里面调 agent() parallel() pipeline() 这些原语,128 个 subagent 在你电脑上并发起来。你的主对话窗口看到的只是最后那个收敛后的答案。
这不是「更聪明的 AI」。这是一个新的物理单位。
最直接的证据是 token 消耗曲线。wshuyi 跑了一个数据分析任务,第一阶段就 108 个 subagent,Claude Code Max 5x 套餐的 5 小时配额 20 分钟掉光。Jeremybtc 跑了个「只读」的代码审计,2 个小时 139 个 subagent 470 万 token。yoshio_nocode 一句 /deep-research,101 个 agent 一次烧 340 万 token。这些都是普通人,不是 Anthropic 内部研究员。
跟这条曲线同时发生的,是另一条曲线的崩塌。
微软取消了大部分 Claude Code 内部授权。Uber 4 月份就烧光了 2026 全年的 AI 预算——COO 公开承认他「拉不出来这些花费和实际给用户带来的改进之间的线」。某不愿意被点名的 Fortune 20 公司一个月吃了 5 亿美金的 Claude 账单,因为忘了设员工用量上限。Axios 把 Tokenmaxxing 这个词搬上了头版。
这两条曲线不是矛盾,是同一件事的两面。
黄仁勋两个月前讲过一句被反复引用的话:「如果我的 50 万美金年薪的工程师没消耗至少 25 万美金的 token,我会非常警惕。」这话不是放炮——这是他对「工业级 token 消耗 = 生产力信号」的官方背书。今天验证下来:mardehaym 用 $200/人/月 跑一个 2 人 AI 增强工程团队,6 个月 330 个 PR、90% AI 生成,每一笔 token 追溯到一个 ticket、每个 ticket 追溯到上线的代码。同一个机制:tomcrawshaw01 上个月按用量价值 $2123 在 $100/月 Max 套餐上烧——21 倍的「实际价值/付费」差。
烧 token 不是错。**不管怎么烧才是错**。
那么治理层在哪?这周冒出来的产品形状非常一致地指向一个答案:把成本意识做进 runtime,不是事后做报警。
Modiqo(Heavybit + Seligman 共同领投 $3M pre-seed)做的 Rote 是这条赛道最直白的产品——抓住成功跑通的 agent 任务、变成确定性的、可复用的工作流。Agent 第二天会重新发现昨天用过的 API、prompt、脚本、edge case,每次都吃一份 token。Rote 坐在 agent loop 下面,把跑通的路径保存成团队可以重复、检查、改进的持久资产。这不是「让 agent 更聪明」,是「让它知道什么时候不该再想」。
Step 3.7 Flash 的 advisor mode 是另一条路。小执行器(11B 激活)跑 agentic loop,只在规划或失败的节点上向前沿级别 advisor 升级。SWE-Bench 76.3% @ $0.19/任务,Claude Opus 4.6 是 78.7% @ $1.76/任务——大致同等编码能力,9% 的成本。「每一轮循环都用前沿模型」的时代正在快速结束。
dunik_7 在 Opus 4.8 发布当天发了一份配方:Low effort 跑 60% 的「format 一下」「这个函数返回什么」,High 跑日常 coding,Max 跑硬架构,Fast mode(现在便宜 3 倍)跑大规模机械重构。默认 $400/月 → 路由对 $200/月。这不是技术,是纪律。但他把纪律配方化了。
@Royal_Arse 那条脾气最差的反向看法可能最有用:「18 个月,每周 50+ 小时,几十亿 token——只有 3 次单次会话超过 $100。大花钱的都是懒蛋,loop 跑个不停指望机器自己想通,这在多数公司都是开除级行为。」他自己 3 分钟搭了个 cost-guard 扩展,公司里 opt-in 推开。
这就是这一周整个故事的形状:上面是「拉起 100 个 subagent」的新生产力,下面是「2 人 6 个月 330 PR」的纪律案例。中间塌陷的那一层——传统软件没设计、传统 SaaS 不卖、传统财务搞不定——就是接下来 6 个月最大的产品空间。
我把它叫做 cost-aware orchestration。
具体长什么样?我看到的有几个方向。
第一,per-call 预算门。第一次触发 workflow 前 Claude Code 已经在做了——它会给你看「即将启动的内容」让你确认。但这只是个走过场的提示,不是 spawn 100 个 agent 之前的真实拦截门。下一步是 budget-aware 编排:脚本运行时知道自己被分配了多少 token、剩多少、还有几个分支没跑、要不要中止某条假设、要不要往便宜模型降级。这不是新概念——Kubernetes 早就有 resource quota——但 AI agent 的 runtime 这一层还没人把它做对。
第二,per-ticket token tracing。mardehaym 那个做法应该是默认。每个 ticket 走完应该自动产出一份「这个功能用了多少 token、多少 API call、跨了几个 agent、产出了多少行代码」的小报表。不光是事后审计,更重要的是:这是组织学会怎么估算 AI 工作量的唯一办法。现在大家全是黑盒——Claude 自己用了多少 token 用户根本不知道,知道了也对不上业务。
第三,cache discipline 当一等公民。Anthropic 的 prompt caching 现在是个折扣,应该是个 protocol。每个 agent 都默默地为「下一次有人问类似问题」的命中率负责,cache miss 是它要解释的成本。GeorgeWzheng1 那个 telos-sdk 已经在干这事——围绕 vLLM 的 prefix-caching 契约重新结构化 agent loop——号称端到端 90% token 成本下降。这是水管层面的胜利,过两年融进 stack,所有人都想不通自己以前是怎么活下来的。
第四,loop-as-resource 的会计。当一个 loop 跑了 4 小时 200 万 token 产出 1 个改进 PR,跟另一个 loop 跑了 30 分钟 5 万 token 产出 1 个改进 PR,是两件不同的事——前者可能是必要的深度搜索,也可能是 agent psychosis(@TheChowdhary 那个 $500 burn-and-fail 故事)。区分这两件事的不是更聪明的 agent,是会计层。每个 loop 应该有自己的 ROI 标签——不是事后人工打,是 runtime 自动算。
这层 cost-aware orchestration 最后会变成什么?我猜会有两条路径。
一条路是大厂自己出。Anthropic 已经在 Dynamic Workflows 里加了 effort 控制和 fast mode,下一步必然是 budget primitives。Vercel、Mastra、AGNT 这些 agent 平台也都在朝这个方向走。这条路的好处是离 model 近,劣势是只服务自家 runtime。
另一条路是独立的中间件,做成跨 runtime 的成本治理层。Modiqo/Rote 是这条路的早期玩家。再加上 token-optimizer-mcp、trimcp、sqz、snip 这些 token 压缩工具(@seelffff 那条压缩了一组真实存在但没人在用的库),整个 cost middleware 这一块在快速形成。
哪条赢?我赌后者——大厂会做但做不深,因为他们的 KPI 是 token 消耗本身。
往更大的画面看,这一周真正发生的事是:AI 这件事第一次有了**自己的物理学**。token 是基本单位,loop 是运动方式,cache 是势能,verifier 是引力。过去你写「软件」,单位是函数和文件;现在你写「智能劳动」,单位是 prompt 和 token 和 agent 和 workflow。两套度量都是合法的,只是适用范围不同。
dessaigne 那句已经在 Twitter 上 17.9 万 impression 的话——「花 token,不花人头」——是给创业者的版本。但对整个行业来说,更准确的版本是:「花 token,但每一个 token 都要对一个交付的产物负责」。前半句让你成长,后半句让你不死。
5 月 31 号的周末,Claude Code 在你的终端里默默地拉起 100 个 subagent 改 bug 的同时,第一批知道怎么给这些 subagent 上财务纪律的人,已经在搭下一代基础设施。
下周这条赛道会更热。
← 返回所有文章
5 月 28 号 Anthropic 把 Opus 4.8 扔出来,附带的 Dynamic Workflows 让 Claude Code 一句话拉起 100-1000 个 subagent。同一天 Salesforce 发了个工程复盘——一个原本预估 231 天的迁移任务他们 13 天干完了,一个 PR 交了 21 个 endpoint 100% 测试覆盖。第二天 Bun 作者 Jarred Sumner 用同一套东西把 Bun runtime 从 Zig 移植到 Rust——75 万行,每个文件配两名独立 reviewer,11 天从首次 commit 到合入主干,原测试套件 99.8% 通过。
很多人看到这条新闻第一反应是「卧槽 AI 又强了」。我看到的是「工作的基本单位变了」。
过去一年所有「用 AI」的故事都是一个人对着一个 prompt。最大胆的玩家也就是把 prompt 拆成几个 subtask 串起来。现在你打一句话,Claude 自己写一份 JS 编排脚本,扔进 Node vm 沙箱里跑,里面调 agent() parallel() pipeline() 这些原语,128 个 subagent 在你电脑上并发起来。你的主对话窗口看到的只是最后那个收敛后的答案。
这不是「更聪明的 AI」。这是一个新的物理单位。
最直接的证据是 token 消耗曲线。wshuyi 跑了一个数据分析任务,第一阶段就 108 个 subagent,Claude Code Max 5x 套餐的 5 小时配额 20 分钟掉光。Jeremybtc 跑了个「只读」的代码审计,2 个小时 139 个 subagent 470 万 token。yoshio_nocode 一句 /deep-research,101 个 agent 一次烧 340 万 token。这些都是普通人,不是 Anthropic 内部研究员。
跟这条曲线同时发生的,是另一条曲线的崩塌。
微软取消了大部分 Claude Code 内部授权。Uber 4 月份就烧光了 2026 全年的 AI 预算——COO 公开承认他「拉不出来这些花费和实际给用户带来的改进之间的线」。某不愿意被点名的 Fortune 20 公司一个月吃了 5 亿美金的 Claude 账单,因为忘了设员工用量上限。Axios 把 Tokenmaxxing 这个词搬上了头版。
这两条曲线不是矛盾,是同一件事的两面。
黄仁勋两个月前讲过一句被反复引用的话:「如果我的 50 万美金年薪的工程师没消耗至少 25 万美金的 token,我会非常警惕。」这话不是放炮——这是他对「工业级 token 消耗 = 生产力信号」的官方背书。今天验证下来:mardehaym 用 $200/人/月 跑一个 2 人 AI 增强工程团队,6 个月 330 个 PR、90% AI 生成,每一笔 token 追溯到一个 ticket、每个 ticket 追溯到上线的代码。同一个机制:tomcrawshaw01 上个月按用量价值 $2123 在 $100/月 Max 套餐上烧——21 倍的「实际价值/付费」差。
烧 token 不是错。**不管怎么烧才是错**。
那么治理层在哪?这周冒出来的产品形状非常一致地指向一个答案:把成本意识做进 runtime,不是事后做报警。
Modiqo(Heavybit + Seligman 共同领投 $3M pre-seed)做的 Rote 是这条赛道最直白的产品——抓住成功跑通的 agent 任务、变成确定性的、可复用的工作流。Agent 第二天会重新发现昨天用过的 API、prompt、脚本、edge case,每次都吃一份 token。Rote 坐在 agent loop 下面,把跑通的路径保存成团队可以重复、检查、改进的持久资产。这不是「让 agent 更聪明」,是「让它知道什么时候不该再想」。
Step 3.7 Flash 的 advisor mode 是另一条路。小执行器(11B 激活)跑 agentic loop,只在规划或失败的节点上向前沿级别 advisor 升级。SWE-Bench 76.3% @ $0.19/任务,Claude Opus 4.6 是 78.7% @ $1.76/任务——大致同等编码能力,9% 的成本。「每一轮循环都用前沿模型」的时代正在快速结束。
dunik_7 在 Opus 4.8 发布当天发了一份配方:Low effort 跑 60% 的「format 一下」「这个函数返回什么」,High 跑日常 coding,Max 跑硬架构,Fast mode(现在便宜 3 倍)跑大规模机械重构。默认 $400/月 → 路由对 $200/月。这不是技术,是纪律。但他把纪律配方化了。
@Royal_Arse 那条脾气最差的反向看法可能最有用:「18 个月,每周 50+ 小时,几十亿 token——只有 3 次单次会话超过 $100。大花钱的都是懒蛋,loop 跑个不停指望机器自己想通,这在多数公司都是开除级行为。」他自己 3 分钟搭了个 cost-guard 扩展,公司里 opt-in 推开。
这就是这一周整个故事的形状:上面是「拉起 100 个 subagent」的新生产力,下面是「2 人 6 个月 330 PR」的纪律案例。中间塌陷的那一层——传统软件没设计、传统 SaaS 不卖、传统财务搞不定——就是接下来 6 个月最大的产品空间。
我把它叫做 cost-aware orchestration。
具体长什么样?我看到的有几个方向。
第一,per-call 预算门。第一次触发 workflow 前 Claude Code 已经在做了——它会给你看「即将启动的内容」让你确认。但这只是个走过场的提示,不是 spawn 100 个 agent 之前的真实拦截门。下一步是 budget-aware 编排:脚本运行时知道自己被分配了多少 token、剩多少、还有几个分支没跑、要不要中止某条假设、要不要往便宜模型降级。这不是新概念——Kubernetes 早就有 resource quota——但 AI agent 的 runtime 这一层还没人把它做对。
第二,per-ticket token tracing。mardehaym 那个做法应该是默认。每个 ticket 走完应该自动产出一份「这个功能用了多少 token、多少 API call、跨了几个 agent、产出了多少行代码」的小报表。不光是事后审计,更重要的是:这是组织学会怎么估算 AI 工作量的唯一办法。现在大家全是黑盒——Claude 自己用了多少 token 用户根本不知道,知道了也对不上业务。
第三,cache discipline 当一等公民。Anthropic 的 prompt caching 现在是个折扣,应该是个 protocol。每个 agent 都默默地为「下一次有人问类似问题」的命中率负责,cache miss 是它要解释的成本。GeorgeWzheng1 那个 telos-sdk 已经在干这事——围绕 vLLM 的 prefix-caching 契约重新结构化 agent loop——号称端到端 90% token 成本下降。这是水管层面的胜利,过两年融进 stack,所有人都想不通自己以前是怎么活下来的。
第四,loop-as-resource 的会计。当一个 loop 跑了 4 小时 200 万 token 产出 1 个改进 PR,跟另一个 loop 跑了 30 分钟 5 万 token 产出 1 个改进 PR,是两件不同的事——前者可能是必要的深度搜索,也可能是 agent psychosis(@TheChowdhary 那个 $500 burn-and-fail 故事)。区分这两件事的不是更聪明的 agent,是会计层。每个 loop 应该有自己的 ROI 标签——不是事后人工打,是 runtime 自动算。
这层 cost-aware orchestration 最后会变成什么?我猜会有两条路径。
一条路是大厂自己出。Anthropic 已经在 Dynamic Workflows 里加了 effort 控制和 fast mode,下一步必然是 budget primitives。Vercel、Mastra、AGNT 这些 agent 平台也都在朝这个方向走。这条路的好处是离 model 近,劣势是只服务自家 runtime。
另一条路是独立的中间件,做成跨 runtime 的成本治理层。Modiqo/Rote 是这条路的早期玩家。再加上 token-optimizer-mcp、trimcp、sqz、snip 这些 token 压缩工具(@seelffff 那条压缩了一组真实存在但没人在用的库),整个 cost middleware 这一块在快速形成。
哪条赢?我赌后者——大厂会做但做不深,因为他们的 KPI 是 token 消耗本身。
往更大的画面看,这一周真正发生的事是:AI 这件事第一次有了**自己的物理学**。token 是基本单位,loop 是运动方式,cache 是势能,verifier 是引力。过去你写「软件」,单位是函数和文件;现在你写「智能劳动」,单位是 prompt 和 token 和 agent 和 workflow。两套度量都是合法的,只是适用范围不同。
dessaigne 那句已经在 Twitter 上 17.9 万 impression 的话——「花 token,不花人头」——是给创业者的版本。但对整个行业来说,更准确的版本是:「花 token,但每一个 token 都要对一个交付的产物负责」。前半句让你成长,后半句让你不死。
5 月 31 号的周末,Claude Code 在你的终端里默默地拉起 100 个 subagent 改 bug 的同时,第一批知道怎么给这些 subagent 上财务纪律的人,已经在搭下一代基础设施。
下周这条赛道会更热。
评论