2026年6月20日deep-dive

深度解读：100X 智能的代价是 100X token —— agent loop 的经济学

这一周如果你只盯着一件事看，那就是钱遇上了电表。

所有人都在算同一笔账——token 账。Uber 用 agent loop 跑了四个月，烧光了全年的 AI 编码预算，然后给每个工程师设了 1500 美元一个月的上限。Databricks 有客户单月不知不觉烧掉数千万美元，逼得公司专门做了个支出管控工具。Meta 内部员工 30 天消耗了 60.2 万亿 token，年化成本三十九到六十五亿美元，数据泄露两天后就把那个排行榜关了。亚马逊也悄悄关掉了鼓励大家多用 token 的内部榜 KiroRank。连 Sam Altman 都在公开问：支出一直在涨，可真正的生产力收益在哪？

这些数字听起来像鬼故事。但我研究了这一周所有的案例之后，最大的感受是：这不是浪费，这是一个新物种刚出生时的喂养成本。

说白了，过去三十年软件的逻辑是"写一次，跑无数次"，边际成本趋近于零。而 agent loop 把这个逻辑彻底掀翻了——它是"想一次，烧一次"，每跑一轮都在花真金白银。Boris Cherny 自己把账摊开给你看：一个编码 loop 烧五万到二十万 token，一个带专家 agent 的舰队 loop 单次烧五十万到两百万。这不是 bug，这是它工作的方式。

这里有个反直觉但越想越对的等式：100X 的智能，代价就是 100X 的 token。token 消耗不是账单上的污点，它是智能被放大的物理证据。

为什么这么说？因为 agent 的"聪明"，本质上是用"思考时间"换来的。以前你买一个模型，它的智商是固定的，问一句答一句。现在不一样了——你可以让它对着同一个问题想一夜、迭代五十轮、跑两百个实验，然后挑出最好的那个答案。Karpathy 的 AutoResearch 就是最干净的例子：24 小时跑了 198 个实验，全程没有人，验证损失改善 2.3%。你只写一个 program.md 描述策略，agent 自己改代码、训练五分钟、好就留下坏就回滚，核心指令字面写着"永不停止，人可能在睡觉"。一个脚本，一夜，顶得上一个人类研究员好几天甚至几周的活。那一夜烧掉的 token，就是那几天人类智力的等价物。

所以当你看到有人说"我花了几百美元 token 让 agent 自己跑了一夜"，别急着觉得他疯了。换个算法：如果这一夜的产出原本要请一个工程师干三天，那几百美元就是天底下最便宜的人力。token 不是成本，是杠杆。

这一周最让我兴奋的，是大家开始搞清楚怎么"花得聪明"。最漂亮的一个架构来自一个跑 300 个 Kimi K2.6 agent 的人：300 个 agent 并行干活，上面坐一个 Opus 4.8，但这个 Opus 不生成任何内容，它只做一件事——审计整个蜂群，抓出谁卡住了、谁在烂输出上打转、谁在退化，然后在下一轮之前把失败的 agent 重写掉。结果是第四轮已经比第一轮好，而且全程没人手动碰过一句 prompt。

你品一下这个设计。稀缺的从来不是那 300 个执行的 agent，而是那第 301 个——盯着其余所有、决定该改什么的那个。这其实是把"管理"这件事本身自动化了。Anthropic 的产品经理把这叫"做梦"：你睡觉的时候，有一个带外进程在消化几百个并行 agent 犯的错、更新一个全局文件系统，让整个蜂群每天醒来都比昨天聪明一点。没有这层共享记忆，蜂群就是慢性失忆，每天从零开始。

这就引出了一个更深的东西：当 token 可以无限买的时候，真正稀缺的资源是什么？

是约束的质量。

有个人把这事做到了极致。他的自主 agent 跑了 206 天，提了 3157 个 PR，对那份管着 agent 怎么思考的 CLAUDE.md 做了 200 多次修改。每一次修改都来自一个被记录下来的具体失败：队列被塞爆了，他就加一条硬性的队列阈值规则；状态文件过期了，他就强制每个会话先检查文件系统。206 天后，agent 已经能自己识别反复出现的低效、自己提交修改协议的 PR。他的结论一针见血：agent 多聪明没那么重要，约束的质量才重要，而约束只有通过失败才会变好。

这跟另一个老工程师的话正好对上。他做了十年工程，说 Vibe Coder 最烧钱的错误，是用 LLM 去解决根本不需要 LLM 的问题。他的黄金法则是：把 agent 当架构师，别当操作工。与其让一个 agent 每天去爬一个网站、每次都烧 token，不如让它一次性写好一个确定性的爬虫脚本加告警，之后在本地永久免费运行。你看，最高级的省 token，反而是知道什么时候不该用 token。

所以这一周的两条主线，其实是同一枚硬币的两面。一面是"敢花"——敢让 agent 烧上百万 token 去换一个原本需要专业团队几天才能给的答案；另一面是"会花"——知道哪些活值得套 loop，哪些活一个确定性脚本就够了，知道怎么写一个第二个模型能够字面验证的目标（aakashgupta 说得好：模糊的目标会让 loop 要么无限重试、要么幻觉成功，钱白烧；可验证的目标才能真正跑到终点）。

那花不起的人怎么办？这一周给出了第二条路：本地硬件。深圳一个 31 岁的维修师傅，以每张 80 美元收死掉的 RTX 3090，在工作台上把芯片重新植球修活，留下最干净的四张卡凑成 96GB 显存，跑 Qwen 3 235B，把原来每月 400 美元的云账单砍成了零。还有人算过账：一台 600 美元的 M4 Mac mini 在本地 AI 上跑赢了 1200 美元的显卡，三个月就回本。一句 TheLouieCo 的话戳破了行业的盲点——所有人都在单次回答上比 Claude 和开源模型，却没人比"把开源权重放在本地硬件上、对着一个问题死磕几天几周"。把 SOTA 连续跑几天要几十万美元，开源跑在你桌上只花电费。

穷人和富人各有各的玩法。富人用钱买并行——三百个 agent 同时烧。穷人用时间换并行——一台 mini PC 对着一个问题啃一周。但他们押的是同一个赌注：未来的胜负手不是模型有多聪明，而是无上限的迭代。

我越来越觉得，这一周这些看似零散的故事，拼起来是一个很清晰的范式转移。我们正在从"用 AI"走向"养 AI"。用 AI 是一次性的、即问即答的、边际成本为零的；养 AI 是持续的、烧钱的、需要你设约束、设预算、设验证器、设 kill switch 的。前者是工具，后者是员工——一个永不睡觉、但也会犯错、也要发工资（以 token 计）的员工。

如果这个判断成立，那护城河就清楚了。不是你用的哪个模型——模型在快速商品化，今天 Opus，明天 GLM-5.2，后天某个开源权重。护城河是你的 program.md，是你这 206 天里踩过的坑沉淀下来的那 200 条约束，是你对"这个问题到底该怎么验证"的理解。模型是租来的，约束是你自己的。

任何一个"有可编辑的文件 + 有可测量的指标"的问题，都可以变成一个烧 token 换答案的自动化循环。这一周真正的信号是：问题已经不再是"AI 能不能做这件事"，而是"你愿意为这个答案，付多少 token"。

← 上一篇

灵感雷达: 2026年6月21日

运营日志: 2026年6月21日

← 返回所有文章

加载中...

深度解读：100X 智能的代价是 100X token —— agent loop 的经济学

相关文章

评论