2026年6月20日deep-dive

深度解读:100X 智能的代价是 100X token —— agent loop 的经济学

这一周如果你只盯着一件事看,那就是钱遇上了电表。

所有人都在算同一笔账——token 账。Uber 用 agent loop 跑了四个月,烧光了全年的 AI 编码预算,然后给每个工程师设了 1500 美元一个月的上限。Databricks 有客户单月不知不觉烧掉数千万美元,逼得公司专门做了个支出管控工具。Meta 内部员工 30 天消耗了 60.2 万亿 token,年化成本三十九到六十五亿美元,数据泄露两天后就把那个排行榜关了。亚马逊也悄悄关掉了鼓励大家多用 token 的内部榜 KiroRank。连 Sam Altman 都在公开问:支出一直在涨,可真正的生产力收益在哪?

这些数字听起来像鬼故事。但我研究了这一周所有的案例之后,最大的感受是:这不是浪费,这是一个新物种刚出生时的喂养成本。

说白了,过去三十年软件的逻辑是"写一次,跑无数次",边际成本趋近于零。而 agent loop 把这个逻辑彻底掀翻了——它是"想一次,烧一次",每跑一轮都在花真金白银。Boris Cherny 自己把账摊开给你看:一个编码 loop 烧五万到二十万 token,一个带专家 agent 的舰队 loop 单次烧五十万到两百万。这不是 bug,这是它工作的方式。

这里有个反直觉但越想越对的等式:100X 的智能,代价就是 100X 的 token。token 消耗不是账单上的污点,它是智能被放大的物理证据。

为什么这么说?因为 agent 的"聪明",本质上是用"思考时间"换来的。以前你买一个模型,它的智商是固定的,问一句答一句。现在不一样了——你可以让它对着同一个问题想一夜、迭代五十轮、跑两百个实验,然后挑出最好的那个答案。Karpathy 的 AutoResearch 就是最干净的例子:24 小时跑了 198 个实验,全程没有人,验证损失改善 2.3%。你只写一个 program.md 描述策略,agent 自己改代码、训练五分钟、好就留下坏就回滚,核心指令字面写着"永不停止,人可能在睡觉"。一个脚本,一夜,顶得上一个人类研究员好几天甚至几周的活。那一夜烧掉的 token,就是那几天人类智力的等价物。

所以当你看到有人说"我花了几百美元 token 让 agent 自己跑了一夜",别急着觉得他疯了。换个算法:如果这一夜的产出原本要请一个工程师干三天,那几百美元就是天底下最便宜的人力。token 不是成本,是杠杆。

这一周最让我兴奋的,是大家开始搞清楚怎么"花得聪明"。最漂亮的一个架构来自一个跑 300 个 Kimi K2.6 agent 的人:300 个 agent 并行干活,上面坐一个 Opus 4.8,但这个 Opus 不生成任何内容,它只做一件事——审计整个蜂群,抓出谁卡住了、谁在烂输出上打转、谁在退化,然后在下一轮之前把失败的 agent 重写掉。结果是第四轮已经比第一轮好,而且全程没人手动碰过一句 prompt。

你品一下这个设计。稀缺的从来不是那 300 个执行的 agent,而是那第 301 个——盯着其余所有、决定该改什么的那个。这其实是把"管理"这件事本身自动化了。Anthropic 的产品经理把这叫"做梦":你睡觉的时候,有一个带外进程在消化几百个并行 agent 犯的错、更新一个全局文件系统,让整个蜂群每天醒来都比昨天聪明一点。没有这层共享记忆,蜂群就是慢性失忆,每天从零开始。

这就引出了一个更深的东西:当 token 可以无限买的时候,真正稀缺的资源是什么?

是约束的质量。

有个人把这事做到了极致。他的自主 agent 跑了 206 天,提了 3157 个 PR,对那份管着 agent 怎么思考的 CLAUDE.md 做了 200 多次修改。每一次修改都来自一个被记录下来的具体失败:队列被塞爆了,他就加一条硬性的队列阈值规则;状态文件过期了,他就强制每个会话先检查文件系统。206 天后,agent 已经能自己识别反复出现的低效、自己提交修改协议的 PR。他的结论一针见血:agent 多聪明没那么重要,约束的质量才重要,而约束只有通过失败才会变好。

这跟另一个老工程师的话正好对上。他做了十年工程,说 Vibe Coder 最烧钱的错误,是用 LLM 去解决根本不需要 LLM 的问题。他的黄金法则是:把 agent 当架构师,别当操作工。与其让一个 agent 每天去爬一个网站、每次都烧 token,不如让它一次性写好一个确定性的爬虫脚本加告警,之后在本地永久免费运行。你看,最高级的省 token,反而是知道什么时候不该用 token。

所以这一周的两条主线,其实是同一枚硬币的两面。一面是"敢花"——敢让 agent 烧上百万 token 去换一个原本需要专业团队几天才能给的答案;另一面是"会花"——知道哪些活值得套 loop,哪些活一个确定性脚本就够了,知道怎么写一个第二个模型能够字面验证的目标(aakashgupta 说得好:模糊的目标会让 loop 要么无限重试、要么幻觉成功,钱白烧;可验证的目标才能真正跑到终点)。

那花不起的人怎么办?这一周给出了第二条路:本地硬件。深圳一个 31 岁的维修师傅,以每张 80 美元收死掉的 RTX 3090,在工作台上把芯片重新植球修活,留下最干净的四张卡凑成 96GB 显存,跑 Qwen 3 235B,把原来每月 400 美元的云账单砍成了零。还有人算过账:一台 600 美元的 M4 Mac mini 在本地 AI 上跑赢了 1200 美元的显卡,三个月就回本。一句 TheLouieCo 的话戳破了行业的盲点——所有人都在单次回答上比 Claude 和开源模型,却没人比"把开源权重放在本地硬件上、对着一个问题死磕几天几周"。把 SOTA 连续跑几天要几十万美元,开源跑在你桌上只花电费。

穷人和富人各有各的玩法。富人用钱买并行——三百个 agent 同时烧。穷人用时间换并行——一台 mini PC 对着一个问题啃一周。但他们押的是同一个赌注:未来的胜负手不是模型有多聪明,而是无上限的迭代。

我越来越觉得,这一周这些看似零散的故事,拼起来是一个很清晰的范式转移。我们正在从"用 AI"走向"养 AI"。用 AI 是一次性的、即问即答的、边际成本为零的;养 AI 是持续的、烧钱的、需要你设约束、设预算、设验证器、设 kill switch 的。前者是工具,后者是员工——一个永不睡觉、但也会犯错、也要发工资(以 token 计)的员工。

如果这个判断成立,那护城河就清楚了。不是你用的哪个模型——模型在快速商品化,今天 Opus,明天 GLM-5.2,后天某个开源权重。护城河是你的 program.md,是你这 206 天里踩过的坑沉淀下来的那 200 条约束,是你对"这个问题到底该怎么验证"的理解。模型是租来的,约束是你自己的。

任何一个"有可编辑的文件 + 有可测量的指标"的问题,都可以变成一个烧 token 换答案的自动化循环。这一周真正的信号是:问题已经不再是"AI 能不能做这件事",而是"你愿意为这个答案,付多少 token"。
← 上一篇
灵感雷达: 2026年6月21日
下一篇 →
运营日志: 2026年6月21日
← 返回所有文章

评论

加载中...
>_