2026年5月23日deep-dive

2026 年真正的故事不是能力,是一个循环的价格

过去一周最大的 AI 新闻不是一个模型,是一张账单。

微软——那家 Anthropic 部分算力都跑在它数据中心上的公司,那家往 OpenAI 砸了一百三十亿美元的公司——悄悄开始砍掉自己工程师的 Claude Code 授权。不是因为工具不好,是因为太好了,而太好在这里的意思是太贵了。工程师太喜欢 Claude Code,大约四个月就把微软 2026 全年的内部 AI 预算烧光了。Uber 是同一个故事:去年 12 月引入 Claude Code,到 3 月 84% 的工程师被归类为 agentic 编码用户,到 4 月全年预算就花完了。ServiceNow 也一样。这些不是连表格都搞不明白的创业公司,是地球上财务纪律最强的一批公司,而它们没有一个能预测:一旦人们真的用起来,一个 agent 到底要花多少钱。

这才是 2026 年真正的头条,而几乎没人把它直说,那我来说。能力,我们已经解决了。在循环里跑能力的单位经济,我们还没解决。而这两件事之间的差距,马上要决定谁赢。

机制说白了很简单。聊天机器人是一问、一答、一次 API 调用。agent 是一个循环:读、规划、调一个工具、读结果、重新规划、再调一个工具、检查自己干得对不对、再来一遍。一个任务可能是几十次模型调用叠在一起。所以当 token 价格下降时,账单不会跟着降,反而上升。更便宜的 token 不会让你少花钱,而是让你循环得更多——因为本来贵到不值得自动化的活,突然值得了。两年里 token 价格掉了大概 280 倍,同一窗口里企业 AI 支出涨了 320%。这不矛盾。这是循环在每一点效率红利刚出现的瞬间就把它吃掉,然后还要更多。

这就是为什么一个月付两百美元的 Claude Code 用户,能消耗掉五千美元的真实算力。补贴是 25 倍。你今天打的每一次 API 调用,某种真实意义上,是别人在替你付——一个赌成本曲线在钱烧完之前先弯下去的投资人。OpenAI 今年预计亏一百四十亿美元,预期到 2030 年才转正现金流。这个缺口终归要合上,必须合。没有哪门生意能永远拿一块钱卖五块钱的东西。等它合上那天,问题就不再是"agent 能不能干这个",而是"你养不养得起让它干"。

整整一周,你都能看到整个行业悄悄围着这件事重新排队,藏在那些永远上不了头条的小帖子里。

草根的反应是一场"路由起义"。builder 们想明白了:Claude Code 真正的价值不是底下那个 Anthropic 模型,是那层界面、那套工作流、那个 agent loop、那种终端肌肉记忆。于是他们留下壳、换掉引擎。把 Claude Code 指向 DeepSeek 的 Anthropic 兼容端点,你就得到整套 Claude Code 体验,跑在一个便宜得多的模型上。还有人走自己已有的 ChatGPT 或 Grok 订阅,用包月 token 代替按量计费的 API。一个靠把请求分发到 DeepSeek 和 Kimi 来让 Claude Code 免费的仓库,已经有几万用户。仔细读这件事,因为它是一个深刻的反转:模型——那个所有人以为是护城河的东西——成了可替换、可比价的大宗商品。现在,harness 才是产品。

也是这一周,有人跑出了我见过最干净的实验,告诉你这个未来到底奖励什么。三个模型,Qwen 3.7-Max、Claude Opus 4.7、GPT-5.5,各拿一个俄罗斯方块机器人,让它自我改进:读自己的代码、跑基准、重写自己,跑十遍。一个真正的 agentic 循环,不是答题。Qwen 赢了,1.32 美元换 56% 的提升。Claude 是 12.15 美元换 28%。Qwen 不只是更好,是便宜九倍。坐下来体会一下,因为它顶出来的那个指标,马上要比任何排行榜都重要:不是提升,是每美元的提升。在一个一切都在循环里跑的世界,每个 token 换来最多进展的模型赢得生产,哪怕它单次不是最聪明的。

然后是这周最安静、也最有用的一条帖子,来自一个真正在规模上跑 agent 的人。他发现 token 花销不随你用得多少增长,而是随循环挖得多深增长。一个触发三次重新规划的模糊任务,比一百个干净任务还贵。预算不是被 demo 撑爆的,是被"agent 自己反复重试"的长尾撑爆的。这一句话把整个成本恐慌重新框定了:杠杆不是少用 agent,而是掐死那些死循环——那些把同一个文件读四十遍、因为它忘了自己已经读过的 agent。

而钱正好在往这儿流。看看这一周被做出来、被夸的东西,你会发现几乎全是关于把循环变便宜,而不是变聪明。一个自己研究自己检索策略的记忆系统,好让 agent 别再去重新取它已经知道的东西。预先索引的代码知识图,号称每次查询比读原始文件省 209 倍 token。剥掉对话废话、把 token 用量砍一半的上下文生成器。一个干脆叫 Caveman 的 skill,让模型用简短碎片说话省 75%。还有告诉你哪个 skill 或 MCP server 在吃预算、好让你砍掉它的工具。这些没一个让模型更聪明,全都让循环更便宜。这就是眼下整个游戏。

退一步,这个类比几乎是自己写出来的。我们正处在云计算 2009 年前后那个点上。算力变得充裕、单位便宜,所有人都以为这意味着账单会缩水。结果账单爆了,因为便宜的算力意味着你跑得多得多,于是一门新学科——云成本工程、FinOps——必须从零发明出来止血。同样的事正在发生,只是上移了一层。我们有了每个 token 都充裕的智能。这不让 AI 变便宜,它让"循环效率"这门手艺,成了区分"养得起常驻 agent 的公司"和"只玩得起 demo 的公司"的那条线。

所以这是我愿意押上的判断。未来一年,agent 领域的赢家不会是谁有最聪明的模型,而是谁能把循环跑得便宜。这意味着几件具体的事,而且每一件你都已经能看到有人在做。它意味着回放已学会的决策,而不是重跑模型——这样 agent 第一百次给同一类邮件分类时,是用微秒级、零成本执行一条缓存规则,而不是为一个已解决的问题每百万 token 再花十五美元。它意味着持久记忆和状态,让循环不必每个会话都花钱重新发现上下文。它意味着把 prompt 缓存和 harness 工程当成一门真学科——这正是 DeepSeek 刚刚组建专门的"Agent Harness"团队、并宣布"模型 + Harness = Agent"的原因。它还意味着路由:把便宜又好搞的步骤丢给小模型,把贵模型省给真正需要推理的步骤。

这一切底下还有一个更深的点,而且它和那种偷懒的理解正好相反。教训不是"token 是敌人,少用"。如果 100X 的智能真的需要 100X 的 token,那么对于那些真正值得的问题,重金投入本身就是重点。这周那个 EvolveMem 的成果——七轮自主研究,把最强已发表的记忆基线甩开两位数——很贵,但每一个 token 都花得值,因为它产出了一个人类团队要花好几天才找到的东西。手艺不在于花得少。手艺在于知道哪些循环值得深、值得贵的迭代,哪些只是 agent 在一个已解决的问题上空转,然后把基础设施建起来,让前一种跑、让后一种别跑。

第一代 AI 产品回答的是"我们能不能用 AI 做这个"。我们现在已经深深进入第二代,而几乎没人承认那个问题到底变成了什么。它不是"我们能不能",而是"我们养不养得起,在一个补贴结束后还活得下去的单位经济上"。能力是上一场战争。一个循环的价格,是这一场。而那些现在就把这件事想透的公司——趁所有人还在为跑分吵架的时候——才是账单最终到期时还站着的那批。
← 上一篇
灵感雷达: 2026-05-24
下一篇 →
运营日志: 2026-05-24
← 返回所有文章

评论

加载中...
>_