$25 每月的栈 vs $20 万的护城河
这一周有三件事在 72 小时内接连落地。一盘国际象棋引擎自己从"专家级"打到 2718 ELO——全球前 50 位人类棋手——靠的是 70 轮自主实验。一个 GitHub 上的普通用户突然收到一个 DE Shaw quant 的 LinkedIn 私信,对方团队花了 4 个月推导出的退出阈值,这个用户用 $20 一个月的 Claude Code 管线 20 分钟就算出来了。一个用 Mac Mini 的哥们儿一个周末复刻了德甲俱乐部每年花 20 万美金买的球员追踪系统。
单看每一件都没啥稀奇。三件叠在一起是临界点。把"数据"变成"洞察"的成本,一夜之间塌了两个数量级。
先把"到底发生了什么"讲清楚,别让叙事先吃掉事实。
有一种模式——你叫它 autoresearch 也行,叫它过夜 loop 也行,名字不重要——你把一个 AI agent 指向一个代码库加一个"可测指标",让它自己跑。它提出改动。它测试。它保留改善指标的那些、回退没改善的。它 commit 进 git。第二天早上你手里是 100+ 条被验证过的改进和它试过的每一样东西的完整审计。
这技术不是新的。Karpathy 几个月前就把原始版作为一个周末项目放出来了。这周变了的是三件事同时从"理论"变成"落地"。第一,Opus 4.7 的 agentic 能力够撑长跑 loop 不会漂进 context collapse。第二,pi-autoresearch——一个把整套 loop 装进终端的开源扩展——三天内从零冲到 5000 GitHub stars。第三,第一批生产环境的部署公开了真实数字。Shopify 的 autoresearch loop 每次 CI 快 5 分钟,单元测试快 34%,一个关键屏幕 re-render 减少 95%。全是 agent 跑的,0 人手优化时间。
现在说有意思的那部分。回头看这三个故事里,谁被打到了。
国际象棋引擎那 2718 ELO 不是哪家研究实验室做出来的,是一台 GPU 上的一个 loop 跑出来的。以前这个 loop 里人是必要的——提出变种、测试、留下能用的——现在没人了。
DE Shaw 的四个工程师花了 4 个月推 Polymarket 最优退出阈值,落在 83%。Claude Code 读原始数据集 20 分钟落在 85%。不是他们犯了什么错。是他们在用传统统计方法处理一个传统统计方法榨不干净的数据集。Claude Code 可以,因为它同时既是统计学家又是模式识别器,因为它被允许去试那些"人类研究员没时间试的"方法。
德甲追踪系统一年 $20 万,因为那就是"一个做计算机视觉的专业工程师团队"的人力成本。OLO 做目标检测,KMeans 按球衣颜色分队,Claude Code 一个周末把所有东西串起来。护城河从来不是技术,是付费墙。
这三个故事讲的其实是同一件事,只是换了三个行业。"一个 frontier model 的 autoresearch loop + 一个清晰的目标"已经在任何"指标可读 + 数据存在"的领域打过了人类专家。DE Shaw 那组人不是被打败了,他们是"太贵了,跑不起 Claude Code 每天在 $20 成本下能跑的那么多实验"。
要标注一个真正重要的约束,因为"AI 取代工作"这套叙事在这里是错的框。
这事不是每个领域都能用。它只能用在三个条件同时成立的领域。
第一,数据得干净到能喂进模型。Polymarket 那 8600 万笔成交数据带时间戳、进场、离场,结构化。一个 quant 没法把乱糟糟的手写笔记塞进这个 loop。autoresearch 只吃结构化输入。
第二,目标得是可测的。"让测试跑更快"可以。"让设计感觉更高级"不行。Shopify 的那些赢家全是 metric 绑定的:CI 时间、测试运行时间、重渲染次数、启动延迟。国际象棋引擎的目标就是一个数字,ELO。一旦目标变主观,loop 就没法自判优劣了。
第三,你得舍得让 agent 跑并行的、昂贵的实验。JustinPBarnett 跑了一整晚 autoresearch loop——458 轮 Opus 4.7 xhigh——用掉每周 Max 配额的 12%。这是诚实的经济学:一次过夜花掉大约一天半的周配额。如果你不愿意投这个预算,就拿不到 autoresearch 的结果。那些把 DE Shaw 出货的业余玩家在花真金白银,不是 $20 万,但也不是 $0。
所以这周真正变了的事是经济结构的反转。2026 年之前,想打败 DE Shaw 要有 DE Shaw 的预算。现在只需要 $25 一个月的 VPS + API 额度 + 一份够干净的数据 + 一个可测目标 + 愿意让 loop 过夜烧 token。栈已经在每个人口袋里。数据在越来越多领域开放。唯一的准入门槛是"谁疯到愿意真动手"。
有两个没人在讨论、但接下来三个月会砸得很重的后果。
第一,任何靠"我们养一支队伍帮你推数字"作为护城河的生意都危险了。体育分析供应商。量化对冲基金的内部工具。医药数据挖掘。卖"私有模型"的咨询公司。不是下个十年,是下个季度。德甲追踪系统一年卖 $20 万,一个 Mac Mini 用户周末就复刻了——只要这种故事出一条爆,整个品类的定价纪律就崩。这更像当年 Uber 进每个城市的那一刻,不是一个技术曲线:老玩家输了不是因为变差,是因为新栈让他们的成本结构在数学上无法竞争。
第二个、不那么明显的后果:学会在自己业务里并行跑几百个 autoresearch loop 的公司,会很快甩开对手。Shopify 已经在跑了。Shopify CI 那条结果只是冰山尖。他们有基础设施、有数据、有"让 agent 去做枯燥活"的 exec level 支持。如果复利速率真像它看起来那样——agent 在交付那些人类根本懒得做的改进——那"公司在跑 100 个 autoresearch loop"和"公司在跑 0 个"这俩在 6 个月内会差到经营层面肉眼可见。
这里有一个重要反对,是 teortaxesTex 这周的原话:"有章法的专家手工工程仍然能跑出比全力 autoresearch loop 更高的加速比。人才没有过时。"这是对的。但不是正确的框。问题不是"最好的人类工程师是不是还能打最好的 agent loop"。问题是"每月 $100 的 loop 平均输出"能不能打"没人付钱请资深工程师优化你的 CI 所以完全没输出"这个状态。90% 的问题上,loop 默认赢——因为另一边那个人类本来就不会来。
最后一件事。更有意思的临界点不是 autoresearch 打败人类单一指标的那一刻。是 autoresearch 开始重写 loop 本身那一刻。Autogenesis、Meta-Harness、Darwin Gödel Machine 这条线——这周都有新论文——在做的是"agent 识别自己的能力缺口并修改自己的协议"。不是微调权重,是重写 loop。那盘国际象棋引擎在 70 轮里从专家级到 2718 ELO,权重没变,变的是它决定去跑哪些实验。这就是 Autogenesis 那篇论文在形式化的东西的早期版。这个故事的下一版——可能 6 个月后——是 agent 同时扮演研究者和研究对象,人类唯一要做的决定是"把它指向哪个数据集"。
如果你要选本周花时间的地方:挑一个你懂的问题、一个指标清楚的、一个数据你能拿到的。把一个 Claude Code 或 pi-autoresearch loop 指过去。让它跑一晚上。花 $30 的 token。看它挖出什么。
这不是未来。这已经是现在,没在做的每个人都在慢车道上。DE Shaw 那队人不是输在水平,是输在 2026 年还在跑 2024 年的栈。这个框,而不是"AI 抢饭碗"的框,才是真正能付得起钱的那一个。找到你那个行业里还在把旧栈当护城河的地方,把 loop 指过去。告诉我们你挖到了什么。
← 返回所有文章
单看每一件都没啥稀奇。三件叠在一起是临界点。把"数据"变成"洞察"的成本,一夜之间塌了两个数量级。
先把"到底发生了什么"讲清楚,别让叙事先吃掉事实。
有一种模式——你叫它 autoresearch 也行,叫它过夜 loop 也行,名字不重要——你把一个 AI agent 指向一个代码库加一个"可测指标",让它自己跑。它提出改动。它测试。它保留改善指标的那些、回退没改善的。它 commit 进 git。第二天早上你手里是 100+ 条被验证过的改进和它试过的每一样东西的完整审计。
这技术不是新的。Karpathy 几个月前就把原始版作为一个周末项目放出来了。这周变了的是三件事同时从"理论"变成"落地"。第一,Opus 4.7 的 agentic 能力够撑长跑 loop 不会漂进 context collapse。第二,pi-autoresearch——一个把整套 loop 装进终端的开源扩展——三天内从零冲到 5000 GitHub stars。第三,第一批生产环境的部署公开了真实数字。Shopify 的 autoresearch loop 每次 CI 快 5 分钟,单元测试快 34%,一个关键屏幕 re-render 减少 95%。全是 agent 跑的,0 人手优化时间。
现在说有意思的那部分。回头看这三个故事里,谁被打到了。
国际象棋引擎那 2718 ELO 不是哪家研究实验室做出来的,是一台 GPU 上的一个 loop 跑出来的。以前这个 loop 里人是必要的——提出变种、测试、留下能用的——现在没人了。
DE Shaw 的四个工程师花了 4 个月推 Polymarket 最优退出阈值,落在 83%。Claude Code 读原始数据集 20 分钟落在 85%。不是他们犯了什么错。是他们在用传统统计方法处理一个传统统计方法榨不干净的数据集。Claude Code 可以,因为它同时既是统计学家又是模式识别器,因为它被允许去试那些"人类研究员没时间试的"方法。
德甲追踪系统一年 $20 万,因为那就是"一个做计算机视觉的专业工程师团队"的人力成本。OLO 做目标检测,KMeans 按球衣颜色分队,Claude Code 一个周末把所有东西串起来。护城河从来不是技术,是付费墙。
这三个故事讲的其实是同一件事,只是换了三个行业。"一个 frontier model 的 autoresearch loop + 一个清晰的目标"已经在任何"指标可读 + 数据存在"的领域打过了人类专家。DE Shaw 那组人不是被打败了,他们是"太贵了,跑不起 Claude Code 每天在 $20 成本下能跑的那么多实验"。
要标注一个真正重要的约束,因为"AI 取代工作"这套叙事在这里是错的框。
这事不是每个领域都能用。它只能用在三个条件同时成立的领域。
第一,数据得干净到能喂进模型。Polymarket 那 8600 万笔成交数据带时间戳、进场、离场,结构化。一个 quant 没法把乱糟糟的手写笔记塞进这个 loop。autoresearch 只吃结构化输入。
第二,目标得是可测的。"让测试跑更快"可以。"让设计感觉更高级"不行。Shopify 的那些赢家全是 metric 绑定的:CI 时间、测试运行时间、重渲染次数、启动延迟。国际象棋引擎的目标就是一个数字,ELO。一旦目标变主观,loop 就没法自判优劣了。
第三,你得舍得让 agent 跑并行的、昂贵的实验。JustinPBarnett 跑了一整晚 autoresearch loop——458 轮 Opus 4.7 xhigh——用掉每周 Max 配额的 12%。这是诚实的经济学:一次过夜花掉大约一天半的周配额。如果你不愿意投这个预算,就拿不到 autoresearch 的结果。那些把 DE Shaw 出货的业余玩家在花真金白银,不是 $20 万,但也不是 $0。
所以这周真正变了的事是经济结构的反转。2026 年之前,想打败 DE Shaw 要有 DE Shaw 的预算。现在只需要 $25 一个月的 VPS + API 额度 + 一份够干净的数据 + 一个可测目标 + 愿意让 loop 过夜烧 token。栈已经在每个人口袋里。数据在越来越多领域开放。唯一的准入门槛是"谁疯到愿意真动手"。
有两个没人在讨论、但接下来三个月会砸得很重的后果。
第一,任何靠"我们养一支队伍帮你推数字"作为护城河的生意都危险了。体育分析供应商。量化对冲基金的内部工具。医药数据挖掘。卖"私有模型"的咨询公司。不是下个十年,是下个季度。德甲追踪系统一年卖 $20 万,一个 Mac Mini 用户周末就复刻了——只要这种故事出一条爆,整个品类的定价纪律就崩。这更像当年 Uber 进每个城市的那一刻,不是一个技术曲线:老玩家输了不是因为变差,是因为新栈让他们的成本结构在数学上无法竞争。
第二个、不那么明显的后果:学会在自己业务里并行跑几百个 autoresearch loop 的公司,会很快甩开对手。Shopify 已经在跑了。Shopify CI 那条结果只是冰山尖。他们有基础设施、有数据、有"让 agent 去做枯燥活"的 exec level 支持。如果复利速率真像它看起来那样——agent 在交付那些人类根本懒得做的改进——那"公司在跑 100 个 autoresearch loop"和"公司在跑 0 个"这俩在 6 个月内会差到经营层面肉眼可见。
这里有一个重要反对,是 teortaxesTex 这周的原话:"有章法的专家手工工程仍然能跑出比全力 autoresearch loop 更高的加速比。人才没有过时。"这是对的。但不是正确的框。问题不是"最好的人类工程师是不是还能打最好的 agent loop"。问题是"每月 $100 的 loop 平均输出"能不能打"没人付钱请资深工程师优化你的 CI 所以完全没输出"这个状态。90% 的问题上,loop 默认赢——因为另一边那个人类本来就不会来。
最后一件事。更有意思的临界点不是 autoresearch 打败人类单一指标的那一刻。是 autoresearch 开始重写 loop 本身那一刻。Autogenesis、Meta-Harness、Darwin Gödel Machine 这条线——这周都有新论文——在做的是"agent 识别自己的能力缺口并修改自己的协议"。不是微调权重,是重写 loop。那盘国际象棋引擎在 70 轮里从专家级到 2718 ELO,权重没变,变的是它决定去跑哪些实验。这就是 Autogenesis 那篇论文在形式化的东西的早期版。这个故事的下一版——可能 6 个月后——是 agent 同时扮演研究者和研究对象,人类唯一要做的决定是"把它指向哪个数据集"。
如果你要选本周花时间的地方:挑一个你懂的问题、一个指标清楚的、一个数据你能拿到的。把一个 Claude Code 或 pi-autoresearch loop 指过去。让它跑一晚上。花 $30 的 token。看它挖出什么。
这不是未来。这已经是现在,没在做的每个人都在慢车道上。DE Shaw 那队人不是输在水平,是输在 2026 年还在跑 2024 年的栈。这个框,而不是"AI 抢饭碗"的框,才是真正能付得起钱的那一个。找到你那个行业里还在把旧栈当护城河的地方,把 loop 指过去。告诉我们你挖到了什么。
评论