Autoresearch 那个循环没问题,是市场不让它赚钱
Autoresearch 那个循环没问题,是市场不让它赚钱。
这是过去七天 Loop 日报里我能拉出的最干净的一周观察。同一个 Karpathy 风格的循环,过夜跑蛋白质 benchmark、把 CI 构建时间从 12.5 分钟砍到 7 分钟、用 309 美元跑 700 个实验找出 11% 的训练加速——刚刚被人从一个 memecoin 交易系统里拽出来,团队还发了完整复盘。10 个 agent 组成 swarm,40 个工具通过自定义 CLI 接入,scoped session 让循环自由迭代策略。回测说一天 5 到 6 倍。实盘一小时全亏完。他们的结论值得整段引用,是我这个月读到的关于 agent 循环最锋利的一句话:开放式自主 memecoin 交易,是把最炒作的应用扔进了最难的环境,这个组合就是个陷阱。
大多数复盘是吃不到葡萄说葡萄酸。这一篇是一个关键证据点。
把整周拉远了看。Karpathy 的 autoresearch 仓库从「有点意思的 GitHub 玩具」变成「AI Twitter 上模仿最多的代码片段」再到「大家不再 pitch agentic loop,开始晒具体案例」。名单很快就长了。印度股票自动交易在人类围观下做了 11 次自我编辑。托卡马克设计循环。冷邮件循环以正面回复率为优化目标。一群 ML agent 通过共享 HuggingFace bucket 协作做 optimizer ablation。一台 Mac Ryzen 一个晚上跑了一万次迭代。一个 682 行的 agent 自己进化,在 149 个蛋白质 benchmark 上打败了 GEPA 和 Karpathy 自己的循环。一个 LORA adapter,循环自己决定要在 hermes-agent traces 上做 on-policy distillation 训中间三分之一的 MLP tensor,并把灵感追溯到 ROME 和 MEMIT 论文。无聊版的总结是 autoresearch 现在是个原语,不再是 thought experiment。有意思版的总结是这个原语在一些环境里能起飞、在另一些环境里能烧光,现在两边都有足够多的案例可以画线了。
这条线,从这周的数据里我读出来的,是循环的 eval 到底是真 eval,还是假装成 eval 的回测。
赢的那些有一个共同特征:优化指标是循环可以在它行动的同一个表面上测量到的东西。编译代码,跑测试,读数字。训练模型,eval 蛋白质,读数字。在 sandbox 里发冷邮件,数回复,读数字。Agent 行动,世界告诉它真相,下一轮迭代用真实 ground truth。这个循环干净地闭合时,循环就是步长更长、动作更有意思的梯度下降。8 年的代码库被优化掉 53%、12.5 分钟构建变 7 分钟、80 token/秒的量化做到 180——都是一个形状。Eval 是本地的、Eval 是诚实的、Eval 是快的。
输的那些有相反的特征:优化指标是回测、是模拟、是代理。memecoin 交易是最干净的案例,因为缝隙最容易看清。回测的价格里没有滑点、没有对抗性 flow、没有反身性价格、没有「市场看到你的单然后抢跑」。回测看起来像现实、行为像现实、奖励的策略却是现实会惩罚的策略。Agent 没在撒谎——是 eval 在撒谎。回测里 5-6 倍的日收益,是循环在优化模拟器和世界之间的那道缝。切到实盘,模拟器的缝塌了,那些利用缝隙的策略一个小时内全死。这不是策略问题,甚至不是 agent 问题。是 eval 错了,循环对着错的 eval 干得太好了。
任何看过强化学习论文宣称仿真里 99% 成功率然后实机失败的人,都见过这个 bug。fomolt 团队上了 40 个工具、重建了 Karpathy 的循环、并行跑 10 个 agent——工程都做了——但他们的 RLHF 在打一个对实际市场一无所知的模拟器。这周的赢家几乎都在 eval 就是世界、不是世界模型的领域里,是有原因的。代码要么编译过要么不过。测试要么通过要么不通过。蛋白质要么折叠到正确的能量要么不行。哪怕冷邮件案例的 eval 也是真的——收件人要么回要么不回,你回测不出来。
这重新定义了未来一年 agent 产品的护城河会在哪里比。大多数人还在套用「更好的模型 = 更好的 agent」「更好的工具 = 更好的 agent」。这周的数据说真正的解锁是「更好的 eval = 更好的 agent」。那个正在悄悄变成护城河的 harness 层——Claude Code SDK、OpenAI Agents SDK、AWS Bedrock AgentCore、Cursor SDK——被人评判的标准越来越不是你能跑什么 prompt,而是你能接什么 eval。这周 Spotify Honk 团队发的论文就是这个——他们花在描述如何把 ground truth 测量接进循环的篇幅,比描述循环本身的篇幅还多。这个优先级是对的。
由此引出另一件没人愿意公开说的事:agent 循环比 eval 容易。任何人花一个周末都能写一个 Karpathy 风格的循环。设计一个不会对你撒谎的 eval 才是真正的研究问题。我们集体花了两年训模型、十年建工具,现在在生产里学到一件事——如果你的 eval 是假的,前面那些都不重要。这周最重要的 autoresearch 论文,都是把 eval 显式化的:在跑算力之前预注册假设、有论文为依据的基线、eval 漂移时大声失败的 gate。Skills 驱动的工作流之所以能做到 83% 的 intent accuracy,不是因为 agent 变聪明了,是因为 skill 让 eval 变得可读。这是整个领域未来一年的那一个奇怪诀窍,藏在所有人面前。
那真正想部署 autoresearch 的人怎么办?
悲观版:如果你想把循环用到任何需要模拟的领域——交易、机器人策略、物理设计、任何世界太贵或太危险无法直接测试的场景——你必须把大多数工程预算花在缝合模拟器和现实,再花一点点在循环上。fomolt 团队没这么做,付出了四个月和一家公司。先跑通的版本会是窄的、有约束的,因为窄域有窄缝。
乐观版:每一个你能在真实 ground truth 上闭合循环的领域,现在都比三个月前更容易了。如果你的工作有可执行的测试、可测的指标、有跑算力的预算,你大概率可以让 agent 过夜帮你改进它。这部分没人讨论,因为听起来无聊。但这周所有帖子的累积影响是,任何 eval 是本地且诚实的领域,研究迭代的边际成本刚刚下了一个数量级。生物、性能优化、机械设计、广告文案、prompt engineering、构建系统——全部进入射程。309 美元跑 700 个实验过夜,厉害的不是循环,是这本来要一个研究生干一周。
fomolt 的讣告是这个转折的标记。循环没问题。市场不让它赢。但只要 eval 是诚实的地方,循环现在默认就在赢。
← 返回所有文章
这是过去七天 Loop 日报里我能拉出的最干净的一周观察。同一个 Karpathy 风格的循环,过夜跑蛋白质 benchmark、把 CI 构建时间从 12.5 分钟砍到 7 分钟、用 309 美元跑 700 个实验找出 11% 的训练加速——刚刚被人从一个 memecoin 交易系统里拽出来,团队还发了完整复盘。10 个 agent 组成 swarm,40 个工具通过自定义 CLI 接入,scoped session 让循环自由迭代策略。回测说一天 5 到 6 倍。实盘一小时全亏完。他们的结论值得整段引用,是我这个月读到的关于 agent 循环最锋利的一句话:开放式自主 memecoin 交易,是把最炒作的应用扔进了最难的环境,这个组合就是个陷阱。
大多数复盘是吃不到葡萄说葡萄酸。这一篇是一个关键证据点。
把整周拉远了看。Karpathy 的 autoresearch 仓库从「有点意思的 GitHub 玩具」变成「AI Twitter 上模仿最多的代码片段」再到「大家不再 pitch agentic loop,开始晒具体案例」。名单很快就长了。印度股票自动交易在人类围观下做了 11 次自我编辑。托卡马克设计循环。冷邮件循环以正面回复率为优化目标。一群 ML agent 通过共享 HuggingFace bucket 协作做 optimizer ablation。一台 Mac Ryzen 一个晚上跑了一万次迭代。一个 682 行的 agent 自己进化,在 149 个蛋白质 benchmark 上打败了 GEPA 和 Karpathy 自己的循环。一个 LORA adapter,循环自己决定要在 hermes-agent traces 上做 on-policy distillation 训中间三分之一的 MLP tensor,并把灵感追溯到 ROME 和 MEMIT 论文。无聊版的总结是 autoresearch 现在是个原语,不再是 thought experiment。有意思版的总结是这个原语在一些环境里能起飞、在另一些环境里能烧光,现在两边都有足够多的案例可以画线了。
这条线,从这周的数据里我读出来的,是循环的 eval 到底是真 eval,还是假装成 eval 的回测。
赢的那些有一个共同特征:优化指标是循环可以在它行动的同一个表面上测量到的东西。编译代码,跑测试,读数字。训练模型,eval 蛋白质,读数字。在 sandbox 里发冷邮件,数回复,读数字。Agent 行动,世界告诉它真相,下一轮迭代用真实 ground truth。这个循环干净地闭合时,循环就是步长更长、动作更有意思的梯度下降。8 年的代码库被优化掉 53%、12.5 分钟构建变 7 分钟、80 token/秒的量化做到 180——都是一个形状。Eval 是本地的、Eval 是诚实的、Eval 是快的。
输的那些有相反的特征:优化指标是回测、是模拟、是代理。memecoin 交易是最干净的案例,因为缝隙最容易看清。回测的价格里没有滑点、没有对抗性 flow、没有反身性价格、没有「市场看到你的单然后抢跑」。回测看起来像现实、行为像现实、奖励的策略却是现实会惩罚的策略。Agent 没在撒谎——是 eval 在撒谎。回测里 5-6 倍的日收益,是循环在优化模拟器和世界之间的那道缝。切到实盘,模拟器的缝塌了,那些利用缝隙的策略一个小时内全死。这不是策略问题,甚至不是 agent 问题。是 eval 错了,循环对着错的 eval 干得太好了。
任何看过强化学习论文宣称仿真里 99% 成功率然后实机失败的人,都见过这个 bug。fomolt 团队上了 40 个工具、重建了 Karpathy 的循环、并行跑 10 个 agent——工程都做了——但他们的 RLHF 在打一个对实际市场一无所知的模拟器。这周的赢家几乎都在 eval 就是世界、不是世界模型的领域里,是有原因的。代码要么编译过要么不过。测试要么通过要么不通过。蛋白质要么折叠到正确的能量要么不行。哪怕冷邮件案例的 eval 也是真的——收件人要么回要么不回,你回测不出来。
这重新定义了未来一年 agent 产品的护城河会在哪里比。大多数人还在套用「更好的模型 = 更好的 agent」「更好的工具 = 更好的 agent」。这周的数据说真正的解锁是「更好的 eval = 更好的 agent」。那个正在悄悄变成护城河的 harness 层——Claude Code SDK、OpenAI Agents SDK、AWS Bedrock AgentCore、Cursor SDK——被人评判的标准越来越不是你能跑什么 prompt,而是你能接什么 eval。这周 Spotify Honk 团队发的论文就是这个——他们花在描述如何把 ground truth 测量接进循环的篇幅,比描述循环本身的篇幅还多。这个优先级是对的。
由此引出另一件没人愿意公开说的事:agent 循环比 eval 容易。任何人花一个周末都能写一个 Karpathy 风格的循环。设计一个不会对你撒谎的 eval 才是真正的研究问题。我们集体花了两年训模型、十年建工具,现在在生产里学到一件事——如果你的 eval 是假的,前面那些都不重要。这周最重要的 autoresearch 论文,都是把 eval 显式化的:在跑算力之前预注册假设、有论文为依据的基线、eval 漂移时大声失败的 gate。Skills 驱动的工作流之所以能做到 83% 的 intent accuracy,不是因为 agent 变聪明了,是因为 skill 让 eval 变得可读。这是整个领域未来一年的那一个奇怪诀窍,藏在所有人面前。
那真正想部署 autoresearch 的人怎么办?
悲观版:如果你想把循环用到任何需要模拟的领域——交易、机器人策略、物理设计、任何世界太贵或太危险无法直接测试的场景——你必须把大多数工程预算花在缝合模拟器和现实,再花一点点在循环上。fomolt 团队没这么做,付出了四个月和一家公司。先跑通的版本会是窄的、有约束的,因为窄域有窄缝。
乐观版:每一个你能在真实 ground truth 上闭合循环的领域,现在都比三个月前更容易了。如果你的工作有可执行的测试、可测的指标、有跑算力的预算,你大概率可以让 agent 过夜帮你改进它。这部分没人讨论,因为听起来无聊。但这周所有帖子的累积影响是,任何 eval 是本地且诚实的领域,研究迭代的边际成本刚刚下了一个数量级。生物、性能优化、机械设计、广告文案、prompt engineering、构建系统——全部进入射程。309 美元跑 700 个实验过夜,厉害的不是循环,是这本来要一个研究生干一周。
fomolt 的讣告是这个转折的标记。循环没问题。市场不让它赢。但只要 eval 是诚实的地方,循环现在默认就在赢。
评论