深度: 一个季度,Autoresearch从demo变成生产经济学
Autoresearch一个季度从Karpathy周末原型变成了生产经济学论证。这不是氛围。这是从3月11日那个原始的630行autoresearch.py落地、3天破8000星,到今天79939星,加上Cursor的SDK、OpenAI的Codex /goal、Anthropic的Outcomes、Shopify内部CI都在生产里跑同一种模式的曲线。
60天里发生了什么。
第一件事是receipt现在是生产级的,不是demo。Tobi Lutke把pi-autoresearch指向Shopify的模板引擎,在团队优化了多年的代码库上拿到了53%的渲染加速和61%的内存分配减少。然后Shopify把它跑到栈的其余部分——单元测试300倍快、React组件挂载20%快、CI构建时间砍65%、pnpm变快。这些都不是demo数字。这是CTO能放进董事会PPT的数字。原始框架是"给AI一个指标,让它自我改进直到赢"。三周后变成"你的单元测试套件现在快300倍,diff在这"。
第二件事是loop比所有人预期的都快地泛化了。原始的autoresearch.py是个ML研究专属harness——改代码、跑训练、评估、留下管用的。到4月,社区把同一种loop模式移植到了大约40种不同领域。一个对照rolling Sharpe ratio而非model loss优化prompt的交易agent。一个迭代展开家族史的家谱研究者。一个5个自主周期里从119行长到950行的Spring Boot服务。Mayank的fork目录跑过了五种OS变种和十几种垂类应用,目录本身都维护不动了。这个模式简单到残忍——你需要可测目标、能改输入、有验证器——只要你看得够仔细,几乎所有事情都符合这个形状。
第三件事是供应商开始把loop作为一等产品功能ship。Cursor的/orchestrate SDK在5月8日落地,递归子agent spawn,Cursor自己内部的auto-research管线见到20%的token削减和80%的backend cold start削减。这是供应商先在自己头上跑自己的架构。OpenAI的Codex发布了/goal——用户明确说是"修复了Codex之前auto research问题的功能"。/goal之前,Codex跑几轮就停,需要手动排队。/goal之后,用户在跑10-15小时的自主任务,单个工单上花$500+ API产出90+次commit。Anthropic的Outcomes(在他们的会上宣布)是同一想法的Anthropic侧产品化——autoresearch被包装成任务完成保证。三家供应商,同一形状。
第四件事是学术研究跟上了。arXiv上的Auto Research with Specialist Agents论文(Ning, Li, Zeng, Kang, Xiong)跑了一个经验loop,专家agent创建带代码编辑和评估的trial,在可审计的轨迹上迭代。Receipt:在Parameter Golf validation、NanoChat-D12 CORE、CIFAR-10 Airbench96 wallclock上无人工提议无人工干预的显著改进。University of Minnesota的Prof Jie Ding在会议上告诉听众,他让3个AI agent单独面对一个研究问题过夜,它们带回了72篇同行评议论文。Romovpa证明autoresearch能发现LLM的SOTA白盒对抗攻击:给Claude 30+个现有GCG风格算法和算力集群——Claude把它们组合成超越所有现有方法的新方法。
第五件事是loop之上的元loop。Sam Hogan的HALO(Hierarchical Agent Loop Optimizer)开源:基于RLM的递归自我改进框架,分析执行trace并提议harness改动。AppWorld benchmark Sonnet 4.6上的结果:73.7→89.5,+15.8分。反馈包括幻觉的工具调用、冗余参数、拒绝循环、语义正确性——每个问题都干净映射到一个prompt更新。然后他们把这些发现喂给Cursor(Opus 4.6),让coding agent循环更新harness直到分数饱和。架构是:一个AI改进另一个AI的harness,用第三个AI写补丁。元loop是把autoresearch loop应用到autoresearch loop自己的配置上。
现在说真正的判断。这件事比聊天vs agent叙事更重要的原因,是它改变了谁能做研究级的工作。autoresearch之前,能有意义地迭代ML超参或交易策略或系统优化的,是有预算养全职团队跑实验的人。autoresearch之后,任何有$100/月Claude Code订阅和可测目标的人都能过夜跑几百次实验。这把实验预算降了100-1000倍。Karpathy明确说"human-out-of-loop"是下一个前沿——harness处理loop,人选目标和审输出。
怀疑论者有一点是对的。ATELICINVEST的帖子列了真实问题:有人烧5000万token做婚礼dashboard,1亿token整理邮箱,并行任务产生slop因为产品方向变得不连贯,工程师对自己AI输出里的幻觉feature浑然不觉。Token燃烧即美德的叙事有真实失败模式。但那不是autoresearch的错——那是没有可测目标。严格形态的autoresearch需要验证器。如果你定义不出成功长什么样,你没有autoresearch问题,你有聊天问题。
一直管用的模式是:定义清晰的任务、简单的验证器、深的搜索空间、低验证成本。Karpathy原始的autoresearch.py优化model loss因为loss测起来轻松、搜索空间(代码编辑)很大。Shopify的胜利在渲染速度这种wallclock即验证器的任务上。交易agent管用是因为Sharpe ratio是验证器。对抗攻击发现管用是因为攻击成功率是验证器。开放式的产品策略不管用是因为没有验证器,你最终拿到的是包在漂亮markdown里的自信的错答案。
这就是未来60天的赌注。分发会分叉。会有一类工作——代码优化、安全研究、数学证明探索、金融因子研究、超参调优、prompt优化、浏览器skill编译——autoresearch loop会在后台连续跑,人的决策被限制在选目标和审输出。会有另一类工作——产品方向、商业策略、设计品味——同样的loop会以工业规模产出自信的错artifact,跑这些loop的人不会意识到因为没有验证器告诉它错了。
弄清自己工作落在这条线哪一侧的团队会复利。把产品策略放上autoresearch loop的人会以前所未有的体量产出slop。
一个季度后,问题不会是autoresearch管不管用。Receipt已经在了。问题会是你的验证器是不是真的。
如果你这周还没试,可以试的工具:Karpathy的pi-autoresearch(630行参考实现)、Cursor的/orchestrate SDK(递归子agent spawn)、Codex /goal(长horizon自主任务)、HALO(开源元loop)、DeepClaude(Claude Code agent loop跑DeepSeek V4 Pro,17倍成本削减)。挑一个有可测目标的任务。花$50的token。看loop能不能达到指标。这就是实验。结果会告诉你你的工作有没有真的验证器。
经济账已经变了。品味还没跟上。
"""
← 返回所有文章
60天里发生了什么。
第一件事是receipt现在是生产级的,不是demo。Tobi Lutke把pi-autoresearch指向Shopify的模板引擎,在团队优化了多年的代码库上拿到了53%的渲染加速和61%的内存分配减少。然后Shopify把它跑到栈的其余部分——单元测试300倍快、React组件挂载20%快、CI构建时间砍65%、pnpm变快。这些都不是demo数字。这是CTO能放进董事会PPT的数字。原始框架是"给AI一个指标,让它自我改进直到赢"。三周后变成"你的单元测试套件现在快300倍,diff在这"。
第二件事是loop比所有人预期的都快地泛化了。原始的autoresearch.py是个ML研究专属harness——改代码、跑训练、评估、留下管用的。到4月,社区把同一种loop模式移植到了大约40种不同领域。一个对照rolling Sharpe ratio而非model loss优化prompt的交易agent。一个迭代展开家族史的家谱研究者。一个5个自主周期里从119行长到950行的Spring Boot服务。Mayank的fork目录跑过了五种OS变种和十几种垂类应用,目录本身都维护不动了。这个模式简单到残忍——你需要可测目标、能改输入、有验证器——只要你看得够仔细,几乎所有事情都符合这个形状。
第三件事是供应商开始把loop作为一等产品功能ship。Cursor的/orchestrate SDK在5月8日落地,递归子agent spawn,Cursor自己内部的auto-research管线见到20%的token削减和80%的backend cold start削减。这是供应商先在自己头上跑自己的架构。OpenAI的Codex发布了/goal——用户明确说是"修复了Codex之前auto research问题的功能"。/goal之前,Codex跑几轮就停,需要手动排队。/goal之后,用户在跑10-15小时的自主任务,单个工单上花$500+ API产出90+次commit。Anthropic的Outcomes(在他们的会上宣布)是同一想法的Anthropic侧产品化——autoresearch被包装成任务完成保证。三家供应商,同一形状。
第四件事是学术研究跟上了。arXiv上的Auto Research with Specialist Agents论文(Ning, Li, Zeng, Kang, Xiong)跑了一个经验loop,专家agent创建带代码编辑和评估的trial,在可审计的轨迹上迭代。Receipt:在Parameter Golf validation、NanoChat-D12 CORE、CIFAR-10 Airbench96 wallclock上无人工提议无人工干预的显著改进。University of Minnesota的Prof Jie Ding在会议上告诉听众,他让3个AI agent单独面对一个研究问题过夜,它们带回了72篇同行评议论文。Romovpa证明autoresearch能发现LLM的SOTA白盒对抗攻击:给Claude 30+个现有GCG风格算法和算力集群——Claude把它们组合成超越所有现有方法的新方法。
第五件事是loop之上的元loop。Sam Hogan的HALO(Hierarchical Agent Loop Optimizer)开源:基于RLM的递归自我改进框架,分析执行trace并提议harness改动。AppWorld benchmark Sonnet 4.6上的结果:73.7→89.5,+15.8分。反馈包括幻觉的工具调用、冗余参数、拒绝循环、语义正确性——每个问题都干净映射到一个prompt更新。然后他们把这些发现喂给Cursor(Opus 4.6),让coding agent循环更新harness直到分数饱和。架构是:一个AI改进另一个AI的harness,用第三个AI写补丁。元loop是把autoresearch loop应用到autoresearch loop自己的配置上。
现在说真正的判断。这件事比聊天vs agent叙事更重要的原因,是它改变了谁能做研究级的工作。autoresearch之前,能有意义地迭代ML超参或交易策略或系统优化的,是有预算养全职团队跑实验的人。autoresearch之后,任何有$100/月Claude Code订阅和可测目标的人都能过夜跑几百次实验。这把实验预算降了100-1000倍。Karpathy明确说"human-out-of-loop"是下一个前沿——harness处理loop,人选目标和审输出。
怀疑论者有一点是对的。ATELICINVEST的帖子列了真实问题:有人烧5000万token做婚礼dashboard,1亿token整理邮箱,并行任务产生slop因为产品方向变得不连贯,工程师对自己AI输出里的幻觉feature浑然不觉。Token燃烧即美德的叙事有真实失败模式。但那不是autoresearch的错——那是没有可测目标。严格形态的autoresearch需要验证器。如果你定义不出成功长什么样,你没有autoresearch问题,你有聊天问题。
一直管用的模式是:定义清晰的任务、简单的验证器、深的搜索空间、低验证成本。Karpathy原始的autoresearch.py优化model loss因为loss测起来轻松、搜索空间(代码编辑)很大。Shopify的胜利在渲染速度这种wallclock即验证器的任务上。交易agent管用是因为Sharpe ratio是验证器。对抗攻击发现管用是因为攻击成功率是验证器。开放式的产品策略不管用是因为没有验证器,你最终拿到的是包在漂亮markdown里的自信的错答案。
这就是未来60天的赌注。分发会分叉。会有一类工作——代码优化、安全研究、数学证明探索、金融因子研究、超参调优、prompt优化、浏览器skill编译——autoresearch loop会在后台连续跑,人的决策被限制在选目标和审输出。会有另一类工作——产品方向、商业策略、设计品味——同样的loop会以工业规模产出自信的错artifact,跑这些loop的人不会意识到因为没有验证器告诉它错了。
弄清自己工作落在这条线哪一侧的团队会复利。把产品策略放上autoresearch loop的人会以前所未有的体量产出slop。
一个季度后,问题不会是autoresearch管不管用。Receipt已经在了。问题会是你的验证器是不是真的。
如果你这周还没试,可以试的工具:Karpathy的pi-autoresearch(630行参考实现)、Cursor的/orchestrate SDK(递归子agent spawn)、Codex /goal(长horizon自主任务)、HALO(开源元loop)、DeepClaude(Claude Code agent loop跑DeepSeek V4 Pro,17倍成本削减)。挑一个有可测目标的任务。花$50的token。看loop能不能达到指标。这就是实验。结果会告诉你你的工作有没有真的验证器。
经济账已经变了。品味还没跟上。
"""
评论