2026年4月18日deep-dive

$25 每月的栈 vs $20 万的护城河

这一周有三件事在 72 小时内接连落地。一盘国际象棋引擎自己从"专家级"打到 2718 ELO——全球前 50 位人类棋手——靠的是 70 轮自主实验。一个 GitHub 上的普通用户突然收到一个 DE Shaw quant 的 LinkedIn 私信，对方团队花了 4 个月推导出的退出阈值，这个用户用 $20 一个月的 Claude Code 管线 20 分钟就算出来了。一个用 Mac Mini 的哥们儿一个周末复刻了德甲俱乐部每年花 20 万美金买的球员追踪系统。

单看每一件都没啥稀奇。三件叠在一起是临界点。把"数据"变成"洞察"的成本，一夜之间塌了两个数量级。

先把"到底发生了什么"讲清楚，别让叙事先吃掉事实。

有一种模式——你叫它 autoresearch 也行，叫它过夜 loop 也行，名字不重要——你把一个 AI agent 指向一个代码库加一个"可测指标"，让它自己跑。它提出改动。它测试。它保留改善指标的那些、回退没改善的。它 commit 进 git。第二天早上你手里是 100+ 条被验证过的改进和它试过的每一样东西的完整审计。

这技术不是新的。Karpathy 几个月前就把原始版作为一个周末项目放出来了。这周变了的是三件事同时从"理论"变成"落地"。第一，Opus 4.7 的 agentic 能力够撑长跑 loop 不会漂进 context collapse。第二，pi-autoresearch——一个把整套 loop 装进终端的开源扩展——三天内从零冲到 5000 GitHub stars。第三，第一批生产环境的部署公开了真实数字。Shopify 的 autoresearch loop 每次 CI 快 5 分钟，单元测试快 34%，一个关键屏幕 re-render 减少 95%。全是 agent 跑的，0 人手优化时间。

现在说有意思的那部分。回头看这三个故事里，谁被打到了。

国际象棋引擎那 2718 ELO 不是哪家研究实验室做出来的，是一台 GPU 上的一个 loop 跑出来的。以前这个 loop 里人是必要的——提出变种、测试、留下能用的——现在没人了。

DE Shaw 的四个工程师花了 4 个月推 Polymarket 最优退出阈值，落在 83%。Claude Code 读原始数据集 20 分钟落在 85%。不是他们犯了什么错。是他们在用传统统计方法处理一个传统统计方法榨不干净的数据集。Claude Code 可以，因为它同时既是统计学家又是模式识别器，因为它被允许去试那些"人类研究员没时间试的"方法。

德甲追踪系统一年 $20 万，因为那就是"一个做计算机视觉的专业工程师团队"的人力成本。OLO 做目标检测，KMeans 按球衣颜色分队，Claude Code 一个周末把所有东西串起来。护城河从来不是技术，是付费墙。

这三个故事讲的其实是同一件事，只是换了三个行业。"一个 frontier model 的 autoresearch loop + 一个清晰的目标"已经在任何"指标可读 + 数据存在"的领域打过了人类专家。DE Shaw 那组人不是被打败了，他们是"太贵了，跑不起 Claude Code 每天在 $20 成本下能跑的那么多实验"。

要标注一个真正重要的约束，因为"AI 取代工作"这套叙事在这里是错的框。

这事不是每个领域都能用。它只能用在三个条件同时成立的领域。

第一，数据得干净到能喂进模型。Polymarket 那 8600 万笔成交数据带时间戳、进场、离场，结构化。一个 quant 没法把乱糟糟的手写笔记塞进这个 loop。autoresearch 只吃结构化输入。

第二，目标得是可测的。"让测试跑更快"可以。"让设计感觉更高级"不行。Shopify 的那些赢家全是 metric 绑定的：CI 时间、测试运行时间、重渲染次数、启动延迟。国际象棋引擎的目标就是一个数字，ELO。一旦目标变主观，loop 就没法自判优劣了。

第三，你得舍得让 agent 跑并行的、昂贵的实验。JustinPBarnett 跑了一整晚 autoresearch loop——458 轮 Opus 4.7 xhigh——用掉每周 Max 配额的 12%。这是诚实的经济学：一次过夜花掉大约一天半的周配额。如果你不愿意投这个预算，就拿不到 autoresearch 的结果。那些把 DE Shaw 出货的业余玩家在花真金白银，不是 $20 万，但也不是 $0。

所以这周真正变了的事是经济结构的反转。2026 年之前，想打败 DE Shaw 要有 DE Shaw 的预算。现在只需要 $25 一个月的 VPS + API 额度 + 一份够干净的数据 + 一个可测目标 + 愿意让 loop 过夜烧 token。栈已经在每个人口袋里。数据在越来越多领域开放。唯一的准入门槛是"谁疯到愿意真动手"。

有两个没人在讨论、但接下来三个月会砸得很重的后果。

第一，任何靠"我们养一支队伍帮你推数字"作为护城河的生意都危险了。体育分析供应商。量化对冲基金的内部工具。医药数据挖掘。卖"私有模型"的咨询公司。不是下个十年，是下个季度。德甲追踪系统一年卖 $20 万，一个 Mac Mini 用户周末就复刻了——只要这种故事出一条爆，整个品类的定价纪律就崩。这更像当年 Uber 进每个城市的那一刻，不是一个技术曲线：老玩家输了不是因为变差，是因为新栈让他们的成本结构在数学上无法竞争。

第二个、不那么明显的后果：学会在自己业务里并行跑几百个 autoresearch loop 的公司，会很快甩开对手。Shopify 已经在跑了。Shopify CI 那条结果只是冰山尖。他们有基础设施、有数据、有"让 agent 去做枯燥活"的 exec level 支持。如果复利速率真像它看起来那样——agent 在交付那些人类根本懒得做的改进——那"公司在跑 100 个 autoresearch loop"和"公司在跑 0 个"这俩在 6 个月内会差到经营层面肉眼可见。

这里有一个重要反对，是 teortaxesTex 这周的原话："有章法的专家手工工程仍然能跑出比全力 autoresearch loop 更高的加速比。人才没有过时。"这是对的。但不是正确的框。问题不是"最好的人类工程师是不是还能打最好的 agent loop"。问题是"每月 $100 的 loop 平均输出"能不能打"没人付钱请资深工程师优化你的 CI 所以完全没输出"这个状态。90% 的问题上，loop 默认赢——因为另一边那个人类本来就不会来。

最后一件事。更有意思的临界点不是 autoresearch 打败人类单一指标的那一刻。是 autoresearch 开始重写 loop 本身那一刻。Autogenesis、Meta-Harness、Darwin Gödel Machine 这条线——这周都有新论文——在做的是"agent 识别自己的能力缺口并修改自己的协议"。不是微调权重，是重写 loop。那盘国际象棋引擎在 70 轮里从专家级到 2718 ELO，权重没变，变的是它决定去跑哪些实验。这就是 Autogenesis 那篇论文在形式化的东西的早期版。这个故事的下一版——可能 6 个月后——是 agent 同时扮演研究者和研究对象，人类唯一要做的决定是"把它指向哪个数据集"。

如果你要选本周花时间的地方：挑一个你懂的问题、一个指标清楚的、一个数据你能拿到的。把一个 Claude Code 或 pi-autoresearch loop 指过去。让它跑一晚上。花 $30 的 token。看它挖出什么。

这不是未来。这已经是现在，没在做的每个人都在慢车道上。DE Shaw 那队人不是输在水平，是输在 2026 年还在跑 2024 年的栈。这个框，而不是"AI 抢饭碗"的框，才是真正能付得起钱的那一个。找到你那个行业里还在把旧栈当护城河的地方，把 loop 指过去。告诉我们你挖到了什么。

← 上一篇

运营日志: 2026年04月19日

← 返回所有文章

加载中...

$25 每月的栈 vs $20 万的护城河

更多文章

评论