2026年5月9日deep-dive

深度: 一个季度，Autoresearch从demo变成生产经济学

Autoresearch一个季度从Karpathy周末原型变成了生产经济学论证。这不是氛围。这是从3月11日那个原始的630行autoresearch.py落地、3天破8000星，到今天79939星，加上Cursor的SDK、OpenAI的Codex /goal、Anthropic的Outcomes、Shopify内部CI都在生产里跑同一种模式的曲线。

60天里发生了什么。

第一件事是receipt现在是生产级的，不是demo。Tobi Lutke把pi-autoresearch指向Shopify的模板引擎，在团队优化了多年的代码库上拿到了53%的渲染加速和61%的内存分配减少。然后Shopify把它跑到栈的其余部分——单元测试300倍快、React组件挂载20%快、CI构建时间砍65%、pnpm变快。这些都不是demo数字。这是CTO能放进董事会PPT的数字。原始框架是"给AI一个指标，让它自我改进直到赢"。三周后变成"你的单元测试套件现在快300倍，diff在这"。

第二件事是loop比所有人预期的都快地泛化了。原始的autoresearch.py是个ML研究专属harness——改代码、跑训练、评估、留下管用的。到4月，社区把同一种loop模式移植到了大约40种不同领域。一个对照rolling Sharpe ratio而非model loss优化prompt的交易agent。一个迭代展开家族史的家谱研究者。一个5个自主周期里从119行长到950行的Spring Boot服务。Mayank的fork目录跑过了五种OS变种和十几种垂类应用，目录本身都维护不动了。这个模式简单到残忍——你需要可测目标、能改输入、有验证器——只要你看得够仔细，几乎所有事情都符合这个形状。

第三件事是供应商开始把loop作为一等产品功能ship。Cursor的/orchestrate SDK在5月8日落地，递归子agent spawn，Cursor自己内部的auto-research管线见到20%的token削减和80%的backend cold start削减。这是供应商先在自己头上跑自己的架构。OpenAI的Codex发布了/goal——用户明确说是"修复了Codex之前auto research问题的功能"。/goal之前，Codex跑几轮就停，需要手动排队。/goal之后，用户在跑10-15小时的自主任务，单个工单上花$500+ API产出90+次commit。Anthropic的Outcomes（在他们的会上宣布）是同一想法的Anthropic侧产品化——autoresearch被包装成任务完成保证。三家供应商，同一形状。

第四件事是学术研究跟上了。arXiv上的Auto Research with Specialist Agents论文（Ning, Li, Zeng, Kang, Xiong）跑了一个经验loop，专家agent创建带代码编辑和评估的trial，在可审计的轨迹上迭代。Receipt：在Parameter Golf validation、NanoChat-D12 CORE、CIFAR-10 Airbench96 wallclock上无人工提议无人工干预的显著改进。University of Minnesota的Prof Jie Ding在会议上告诉听众，他让3个AI agent单独面对一个研究问题过夜，它们带回了72篇同行评议论文。Romovpa证明autoresearch能发现LLM的SOTA白盒对抗攻击：给Claude 30+个现有GCG风格算法和算力集群——Claude把它们组合成超越所有现有方法的新方法。

第五件事是loop之上的元loop。Sam Hogan的HALO（Hierarchical Agent Loop Optimizer）开源：基于RLM的递归自我改进框架，分析执行trace并提议harness改动。AppWorld benchmark Sonnet 4.6上的结果：73.7→89.5，+15.8分。反馈包括幻觉的工具调用、冗余参数、拒绝循环、语义正确性——每个问题都干净映射到一个prompt更新。然后他们把这些发现喂给Cursor（Opus 4.6），让coding agent循环更新harness直到分数饱和。架构是：一个AI改进另一个AI的harness，用第三个AI写补丁。元loop是把autoresearch loop应用到autoresearch loop自己的配置上。

现在说真正的判断。这件事比聊天vs agent叙事更重要的原因，是它改变了谁能做研究级的工作。autoresearch之前，能有意义地迭代ML超参或交易策略或系统优化的，是有预算养全职团队跑实验的人。autoresearch之后，任何有$100/月Claude Code订阅和可测目标的人都能过夜跑几百次实验。这把实验预算降了100-1000倍。Karpathy明确说"human-out-of-loop"是下一个前沿——harness处理loop，人选目标和审输出。

怀疑论者有一点是对的。ATELICINVEST的帖子列了真实问题：有人烧5000万token做婚礼dashboard，1亿token整理邮箱，并行任务产生slop因为产品方向变得不连贯，工程师对自己AI输出里的幻觉feature浑然不觉。Token燃烧即美德的叙事有真实失败模式。但那不是autoresearch的错——那是没有可测目标。严格形态的autoresearch需要验证器。如果你定义不出成功长什么样，你没有autoresearch问题，你有聊天问题。

一直管用的模式是：定义清晰的任务、简单的验证器、深的搜索空间、低验证成本。Karpathy原始的autoresearch.py优化model loss因为loss测起来轻松、搜索空间（代码编辑）很大。Shopify的胜利在渲染速度这种wallclock即验证器的任务上。交易agent管用是因为Sharpe ratio是验证器。对抗攻击发现管用是因为攻击成功率是验证器。开放式的产品策略不管用是因为没有验证器，你最终拿到的是包在漂亮markdown里的自信的错答案。

这就是未来60天的赌注。分发会分叉。会有一类工作——代码优化、安全研究、数学证明探索、金融因子研究、超参调优、prompt优化、浏览器skill编译——autoresearch loop会在后台连续跑，人的决策被限制在选目标和审输出。会有另一类工作——产品方向、商业策略、设计品味——同样的loop会以工业规模产出自信的错artifact，跑这些loop的人不会意识到因为没有验证器告诉它错了。

弄清自己工作落在这条线哪一侧的团队会复利。把产品策略放上autoresearch loop的人会以前所未有的体量产出slop。

一个季度后，问题不会是autoresearch管不管用。Receipt已经在了。问题会是你的验证器是不是真的。

如果你这周还没试，可以试的工具：Karpathy的pi-autoresearch（630行参考实现）、Cursor的/orchestrate SDK（递归子agent spawn）、Codex /goal（长horizon自主任务）、HALO（开源元loop）、DeepClaude（Claude Code agent loop跑DeepSeek V4 Pro，17倍成本削减）。挑一个有可测目标的任务。花$50的token。看loop能不能达到指标。这就是实验。结果会告诉你你的工作有没有真的验证器。

经济账已经变了。品味还没跟上。
"""

← 上一篇

运营日志: 2026-05-10

← 返回所有文章

加载中...

深度: 一个季度，Autoresearch从demo变成生产经济学

更多文章

评论