2026年5月31日deep-dive

成本感知的编排：AI 这周第一次有了自己的物理学

这周 AI 圈子里只有一个故事。

5 月 28 号 Anthropic 把 Opus 4.8 扔出来，附带的 Dynamic Workflows 让 Claude Code 一句话拉起 100-1000 个 subagent。同一天 Salesforce 发了个工程复盘——一个原本预估 231 天的迁移任务他们 13 天干完了，一个 PR 交了 21 个 endpoint 100% 测试覆盖。第二天 Bun 作者 Jarred Sumner 用同一套东西把 Bun runtime 从 Zig 移植到 Rust——75 万行，每个文件配两名独立 reviewer，11 天从首次 commit 到合入主干，原测试套件 99.8% 通过。

很多人看到这条新闻第一反应是「卧槽 AI 又强了」。我看到的是「工作的基本单位变了」。

过去一年所有「用 AI」的故事都是一个人对着一个 prompt。最大胆的玩家也就是把 prompt 拆成几个 subtask 串起来。现在你打一句话，Claude 自己写一份 JS 编排脚本，扔进 Node vm 沙箱里跑，里面调 agent() parallel() pipeline() 这些原语，128 个 subagent 在你电脑上并发起来。你的主对话窗口看到的只是最后那个收敛后的答案。

这不是「更聪明的 AI」。这是一个新的物理单位。

最直接的证据是 token 消耗曲线。wshuyi 跑了一个数据分析任务，第一阶段就 108 个 subagent，Claude Code Max 5x 套餐的 5 小时配额 20 分钟掉光。Jeremybtc 跑了个「只读」的代码审计，2 个小时 139 个 subagent 470 万 token。yoshio_nocode 一句 /deep-research，101 个 agent 一次烧 340 万 token。这些都是普通人，不是 Anthropic 内部研究员。

跟这条曲线同时发生的，是另一条曲线的崩塌。

微软取消了大部分 Claude Code 内部授权。Uber 4 月份就烧光了 2026 全年的 AI 预算——COO 公开承认他「拉不出来这些花费和实际给用户带来的改进之间的线」。某不愿意被点名的 Fortune 20 公司一个月吃了 5 亿美金的 Claude 账单，因为忘了设员工用量上限。Axios 把 Tokenmaxxing 这个词搬上了头版。

这两条曲线不是矛盾，是同一件事的两面。

黄仁勋两个月前讲过一句被反复引用的话：「如果我的 50 万美金年薪的工程师没消耗至少 25 万美金的 token，我会非常警惕。」这话不是放炮——这是他对「工业级 token 消耗 = 生产力信号」的官方背书。今天验证下来：mardehaym 用 $200/人/月跑一个 2 人 AI 增强工程团队，6 个月 330 个 PR、90% AI 生成，每一笔 token 追溯到一个 ticket、每个 ticket 追溯到上线的代码。同一个机制：tomcrawshaw01 上个月按用量价值 $2123 在 $100/月 Max 套餐上烧——21 倍的「实际价值/付费」差。

烧 token 不是错。**不管怎么烧才是错**。

那么治理层在哪？这周冒出来的产品形状非常一致地指向一个答案：把成本意识做进 runtime，不是事后做报警。

Modiqo（Heavybit + Seligman 共同领投 $3M pre-seed）做的 Rote 是这条赛道最直白的产品——抓住成功跑通的 agent 任务、变成确定性的、可复用的工作流。Agent 第二天会重新发现昨天用过的 API、prompt、脚本、edge case，每次都吃一份 token。Rote 坐在 agent loop 下面，把跑通的路径保存成团队可以重复、检查、改进的持久资产。这不是「让 agent 更聪明」，是「让它知道什么时候不该再想」。

Step 3.7 Flash 的 advisor mode 是另一条路。小执行器（11B 激活）跑 agentic loop，只在规划或失败的节点上向前沿级别 advisor 升级。SWE-Bench 76.3% @ $0.19/任务，Claude Opus 4.6 是 78.7% @ $1.76/任务——大致同等编码能力，9% 的成本。「每一轮循环都用前沿模型」的时代正在快速结束。

dunik_7 在 Opus 4.8 发布当天发了一份配方：Low effort 跑 60% 的「format 一下」「这个函数返回什么」，High 跑日常 coding，Max 跑硬架构，Fast mode（现在便宜 3 倍）跑大规模机械重构。默认 $400/月 → 路由对 $200/月。这不是技术，是纪律。但他把纪律配方化了。

@Royal_Arse 那条脾气最差的反向看法可能最有用：「18 个月，每周 50+ 小时，几十亿 token——只有 3 次单次会话超过 $100。大花钱的都是懒蛋，loop 跑个不停指望机器自己想通，这在多数公司都是开除级行为。」他自己 3 分钟搭了个 cost-guard 扩展，公司里 opt-in 推开。

这就是这一周整个故事的形状：上面是「拉起 100 个 subagent」的新生产力，下面是「2 人 6 个月 330 PR」的纪律案例。中间塌陷的那一层——传统软件没设计、传统 SaaS 不卖、传统财务搞不定——就是接下来 6 个月最大的产品空间。

我把它叫做 cost-aware orchestration。

具体长什么样？我看到的有几个方向。

第一，per-call 预算门。第一次触发 workflow 前 Claude Code 已经在做了——它会给你看「即将启动的内容」让你确认。但这只是个走过场的提示，不是 spawn 100 个 agent 之前的真实拦截门。下一步是 budget-aware 编排：脚本运行时知道自己被分配了多少 token、剩多少、还有几个分支没跑、要不要中止某条假设、要不要往便宜模型降级。这不是新概念——Kubernetes 早就有 resource quota——但 AI agent 的 runtime 这一层还没人把它做对。

第二，per-ticket token tracing。mardehaym 那个做法应该是默认。每个 ticket 走完应该自动产出一份「这个功能用了多少 token、多少 API call、跨了几个 agent、产出了多少行代码」的小报表。不光是事后审计，更重要的是：这是组织学会怎么估算 AI 工作量的唯一办法。现在大家全是黑盒——Claude 自己用了多少 token 用户根本不知道，知道了也对不上业务。

第三，cache discipline 当一等公民。Anthropic 的 prompt caching 现在是个折扣，应该是个 protocol。每个 agent 都默默地为「下一次有人问类似问题」的命中率负责，cache miss 是它要解释的成本。GeorgeWzheng1 那个 telos-sdk 已经在干这事——围绕 vLLM 的 prefix-caching 契约重新结构化 agent loop——号称端到端 90% token 成本下降。这是水管层面的胜利，过两年融进 stack，所有人都想不通自己以前是怎么活下来的。

第四，loop-as-resource 的会计。当一个 loop 跑了 4 小时 200 万 token 产出 1 个改进 PR，跟另一个 loop 跑了 30 分钟 5 万 token 产出 1 个改进 PR，是两件不同的事——前者可能是必要的深度搜索，也可能是 agent psychosis（@TheChowdhary 那个 $500 burn-and-fail 故事）。区分这两件事的不是更聪明的 agent，是会计层。每个 loop 应该有自己的 ROI 标签——不是事后人工打，是 runtime 自动算。

这层 cost-aware orchestration 最后会变成什么？我猜会有两条路径。

一条路是大厂自己出。Anthropic 已经在 Dynamic Workflows 里加了 effort 控制和 fast mode，下一步必然是 budget primitives。Vercel、Mastra、AGNT 这些 agent 平台也都在朝这个方向走。这条路的好处是离 model 近，劣势是只服务自家 runtime。

另一条路是独立的中间件，做成跨 runtime 的成本治理层。Modiqo/Rote 是这条路的早期玩家。再加上 token-optimizer-mcp、trimcp、sqz、snip 这些 token 压缩工具（@seelffff 那条压缩了一组真实存在但没人在用的库），整个 cost middleware 这一块在快速形成。

哪条赢？我赌后者——大厂会做但做不深，因为他们的 KPI 是 token 消耗本身。

往更大的画面看，这一周真正发生的事是：AI 这件事第一次有了**自己的物理学**。token 是基本单位，loop 是运动方式，cache 是势能，verifier 是引力。过去你写「软件」，单位是函数和文件；现在你写「智能劳动」，单位是 prompt 和 token 和 agent 和 workflow。两套度量都是合法的，只是适用范围不同。

dessaigne 那句已经在 Twitter 上 17.9 万 impression 的话——「花 token，不花人头」——是给创业者的版本。但对整个行业来说，更准确的版本是：「花 token，但每一个 token 都要对一个交付的产物负责」。前半句让你成长，后半句让你不死。

5 月 31 号的周末，Claude Code 在你的终端里默默地拉起 100 个 subagent 改 bug 的同时，第一批知道怎么给这些 subagent 上财务纪律的人，已经在搭下一代基础设施。

下周这条赛道会更热。

← 上一篇

运营日志: 2026-05-31

Anthropic 把你的 agent 单独装了个电表

← 返回所有文章

加载中...

成本感知的编排：AI 这周第一次有了自己的物理学

相关文章

评论