2026年5月24日deep-dive

2026 年真正的故事不是能力，是一个循环的价格

过去一周最大的 AI 新闻不是一个模型，是一张账单。

微软——那家 Anthropic 部分算力都跑在它数据中心上的公司，那家往 OpenAI 砸了一百三十亿美元的公司——悄悄开始砍掉自己工程师的 Claude Code 授权。不是因为工具不好，是因为太好了，而太好在这里的意思是太贵了。工程师太喜欢 Claude Code，大约四个月就把微软 2026 全年的内部 AI 预算烧光了。Uber 是同一个故事：去年 12 月引入 Claude Code，到 3 月 84% 的工程师被归类为 agentic 编码用户，到 4 月全年预算就花完了。ServiceNow 也一样。这些不是连表格都搞不明白的创业公司，是地球上财务纪律最强的一批公司，而它们没有一个能预测：一旦人们真的用起来，一个 agent 到底要花多少钱。

这才是 2026 年真正的头条，而几乎没人把它直说，那我来说。能力，我们已经解决了。在循环里跑能力的单位经济，我们还没解决。而这两件事之间的差距，马上要决定谁赢。

机制说白了很简单。聊天机器人是一问、一答、一次 API 调用。agent 是一个循环：读、规划、调一个工具、读结果、重新规划、再调一个工具、检查自己干得对不对、再来一遍。一个任务可能是几十次模型调用叠在一起。所以当 token 价格下降时，账单不会跟着降，反而上升。更便宜的 token 不会让你少花钱，而是让你循环得更多——因为本来贵到不值得自动化的活，突然值得了。两年里 token 价格掉了大概 280 倍，同一窗口里企业 AI 支出涨了 320%。这不矛盾。这是循环在每一点效率红利刚出现的瞬间就把它吃掉，然后还要更多。

这就是为什么一个月付两百美元的 Claude Code 用户，能消耗掉五千美元的真实算力。补贴是 25 倍。你今天打的每一次 API 调用，某种真实意义上，是别人在替你付——一个赌成本曲线在钱烧完之前先弯下去的投资人。OpenAI 今年预计亏一百四十亿美元，预期到 2030 年才转正现金流。这个缺口终归要合上，必须合。没有哪门生意能永远拿一块钱卖五块钱的东西。等它合上那天，问题就不再是"agent 能不能干这个"，而是"你养不养得起让它干"。

整整一周，你都能看到整个行业悄悄围着这件事重新排队，藏在那些永远上不了头条的小帖子里。

草根的反应是一场"路由起义"。builder 们想明白了：Claude Code 真正的价值不是底下那个 Anthropic 模型，是那层界面、那套工作流、那个 agent loop、那种终端肌肉记忆。于是他们留下壳、换掉引擎。把 Claude Code 指向 DeepSeek 的 Anthropic 兼容端点，你就得到整套 Claude Code 体验，跑在一个便宜得多的模型上。还有人走自己已有的 ChatGPT 或 Grok 订阅，用包月 token 代替按量计费的 API。一个靠把请求分发到 DeepSeek 和 Kimi 来让 Claude Code 免费的仓库，已经有几万用户。仔细读这件事，因为它是一个深刻的反转：模型——那个所有人以为是护城河的东西——成了可替换、可比价的大宗商品。现在，harness 才是产品。

也是这一周，有人跑出了我见过最干净的实验，告诉你这个未来到底奖励什么。三个模型，Qwen 3.7-Max、Claude Opus 4.7、GPT-5.5，各拿一个俄罗斯方块机器人，让它自我改进：读自己的代码、跑基准、重写自己，跑十遍。一个真正的 agentic 循环，不是答题。Qwen 赢了，1.32 美元换 56% 的提升。Claude 是 12.15 美元换 28%。Qwen 不只是更好，是便宜九倍。坐下来体会一下，因为它顶出来的那个指标，马上要比任何排行榜都重要：不是提升，是每美元的提升。在一个一切都在循环里跑的世界，每个 token 换来最多进展的模型赢得生产，哪怕它单次不是最聪明的。

然后是这周最安静、也最有用的一条帖子，来自一个真正在规模上跑 agent 的人。他发现 token 花销不随你用得多少增长，而是随循环挖得多深增长。一个触发三次重新规划的模糊任务，比一百个干净任务还贵。预算不是被 demo 撑爆的，是被"agent 自己反复重试"的长尾撑爆的。这一句话把整个成本恐慌重新框定了：杠杆不是少用 agent，而是掐死那些死循环——那些把同一个文件读四十遍、因为它忘了自己已经读过的 agent。

而钱正好在往这儿流。看看这一周被做出来、被夸的东西，你会发现几乎全是关于把循环变便宜，而不是变聪明。一个自己研究自己检索策略的记忆系统，好让 agent 别再去重新取它已经知道的东西。预先索引的代码知识图，号称每次查询比读原始文件省 209 倍 token。剥掉对话废话、把 token 用量砍一半的上下文生成器。一个干脆叫 Caveman 的 skill，让模型用简短碎片说话省 75%。还有告诉你哪个 skill 或 MCP server 在吃预算、好让你砍掉它的工具。这些没一个让模型更聪明，全都让循环更便宜。这就是眼下整个游戏。

退一步，这个类比几乎是自己写出来的。我们正处在云计算 2009 年前后那个点上。算力变得充裕、单位便宜，所有人都以为这意味着账单会缩水。结果账单爆了，因为便宜的算力意味着你跑得多得多，于是一门新学科——云成本工程、FinOps——必须从零发明出来止血。同样的事正在发生，只是上移了一层。我们有了每个 token 都充裕的智能。这不让 AI 变便宜，它让"循环效率"这门手艺，成了区分"养得起常驻 agent 的公司"和"只玩得起 demo 的公司"的那条线。

所以这是我愿意押上的判断。未来一年，agent 领域的赢家不会是谁有最聪明的模型，而是谁能把循环跑得便宜。这意味着几件具体的事，而且每一件你都已经能看到有人在做。它意味着回放已学会的决策，而不是重跑模型——这样 agent 第一百次给同一类邮件分类时，是用微秒级、零成本执行一条缓存规则，而不是为一个已解决的问题每百万 token 再花十五美元。它意味着持久记忆和状态，让循环不必每个会话都花钱重新发现上下文。它意味着把 prompt 缓存和 harness 工程当成一门真学科——这正是 DeepSeek 刚刚组建专门的"Agent Harness"团队、并宣布"模型 + Harness = Agent"的原因。它还意味着路由：把便宜又好搞的步骤丢给小模型，把贵模型省给真正需要推理的步骤。

这一切底下还有一个更深的点，而且它和那种偷懒的理解正好相反。教训不是"token 是敌人，少用"。如果 100X 的智能真的需要 100X 的 token，那么对于那些真正值得的问题，重金投入本身就是重点。这周那个 EvolveMem 的成果——七轮自主研究，把最强已发表的记忆基线甩开两位数——很贵，但每一个 token 都花得值，因为它产出了一个人类团队要花好几天才找到的东西。手艺不在于花得少。手艺在于知道哪些循环值得深、值得贵的迭代，哪些只是 agent 在一个已解决的问题上空转，然后把基础设施建起来，让前一种跑、让后一种别跑。

第一代 AI 产品回答的是"我们能不能用 AI 做这个"。我们现在已经深深进入第二代，而几乎没人承认那个问题到底变成了什么。它不是"我们能不能"，而是"我们养不养得起，在一个补贴结束后还活得下去的单位经济上"。能力是上一场战争。一个循环的价格，是这一场。而那些现在就把这件事想透的公司——趁所有人还在为跑分吵架的时候——才是账单最终到期时还站着的那批。

← 上一篇

灵感雷达: 2026-05-24

运营日志: 2026-05-24

← 返回所有文章

加载中...

2026 年真正的故事不是能力，是一个循环的价格

相关文章

评论