Loop 日报: 2026-05-19
这周,循环不再是个小众执念,而是成了头条:Karpathy 开源的 autoresearch 项目被 Anthropic 收编,整条时间线终于反应过来跑循环这帮人几个月前就懂的事——前沿不再是最聪明的那个单一答案,而是给一个 agent 一个脚本、一个冻结的指标、一笔算力预算,让它过夜地迭代。在收购的噪音底下,真正的 builder 们一直在出那些不光鲜的部分:成本优化过的循环、把合规烤进去的循环、诚实地揭示自主研究还有多远的基准测试,以及那条反复出现的残酷教训——模型是等式的一半,循环是另一半。
#1
@ihtesham2005
https://x.com/ihtesham2005/status/2056802098822685052
他扒了那篇新出的 AI for Auto-Research 论文,把真正重要的数字挑了出来。AI Scientist 生成一篇完整论文大约花 15 美元。FARS 跑了 228 小时、烧掉 114 亿 token、产出 100 篇论文,平均每 2.3 小时一篇。ARIS 过夜跑了 20 多个 GPU 实验,删掉站不住的论点,靠评审加修订的循环把草稿评分从 5.0 推到了 7.5。他那句判断很到位:生产一篇论文的成本在崩塌,但信任一篇论文的成本正要上升,所以验证才是真正的护城河。
https://x.com/ihtesham2005/status/2056802098822685052
他扒了那篇新出的 AI for Auto-Research 论文,把真正重要的数字挑了出来。AI Scientist 生成一篇完整论文大约花 15 美元。FARS 跑了 228 小时、烧掉 114 亿 token、产出 100 篇论文,平均每 2.3 小时一篇。ARIS 过夜跑了 20 多个 GPU 实验,删掉站不住的论点,靠评审加修订的循环把草稿评分从 5.0 推到了 7.5。他那句判断很到位:生产一篇论文的成本在崩塌,但信任一篇论文的成本正要上升,所以验证才是真正的护城河。
#2
@ChrisRyViss
https://x.com/ChrisRyViss/status/2056789460319392160
他完整摆出了一套基于 Karpathy 式 autoresearch 的自我改进交易大脑,每个子大脑一个循环。四个主子大脑——回测库、实时行情、突发新闻、测试结果——一个喂一个。每天夜里它跑 EOD 测试报告,调整加权比例和打法、做多时间框架的 K 线和价值缺口分析、改算法。库提供知识,实时 RSS 提供变量,整套东西朝着越来越准的胜率提醒复利。这就是把 autoresearch 对准市场、而不是对准训练脚本。
https://x.com/ChrisRyViss/status/2056789460319392160
他完整摆出了一套基于 Karpathy 式 autoresearch 的自我改进交易大脑,每个子大脑一个循环。四个主子大脑——回测库、实时行情、突发新闻、测试结果——一个喂一个。每天夜里它跑 EOD 测试报告,调整加权比例和打法、做多时间框架的 K 线和价值缺口分析、改算法。库提供知识,实时 RSS 提供变量,整套东西朝着越来越准的胜率提醒复利。这就是把 autoresearch 对准市场、而不是对准训练脚本。
#3
@dosco
https://x.com/dosco/status/2056551223495643418
他之前做过一个实验:Codex 一个周末就用 Go 写出了一个零依赖、支持 HTTP 1/2/3 的反向代理,比 Cloudflare 那个 Rust 版和 nginx 都快,然后在一个 auto-research 式的循环里把它改进了。他把功劳全归给 Go 内置的测试和基准支持,以及它扎实的标准库,正是这些让模型能快速推进、快速验证。这就是一个能跑通的 autoresearch 循环的全部秘诀:一个紧凑、快速、客观的反馈信号,让 agent 不用人坐在旁边就能不停迭代。
https://x.com/dosco/status/2056551223495643418
他之前做过一个实验:Codex 一个周末就用 Go 写出了一个零依赖、支持 HTTP 1/2/3 的反向代理,比 Cloudflare 那个 Rust 版和 nginx 都快,然后在一个 auto-research 式的循环里把它改进了。他把功劳全归给 Go 内置的测试和基准支持,以及它扎实的标准库,正是这些让模型能快速推进、快速验证。这就是一个能跑通的 autoresearch 循环的全部秘诀:一个紧凑、快速、客观的反馈信号,让 agent 不用人坐在旁边就能不停迭代。
#4
@SolRouterAI
https://x.com/SolRouterAI/status/2056755537149067582
他们把自由发挥的 agent 循环换成了所谓的引导式推理图——Mermaid 流程图,agent 顺着节点一个一个走。动作节点直接调工具、零 LLM 调用,分支用一个大约 100 token 的小求解器。怎么研究一个 token 的逻辑被编码进了图里,而不是每次查询都从头重新推导一遍。他们报告的结果是:比标准 agentic 循环快两倍、成本只有三分之一。这是一股安静的反向潮流——约束循环,而不是让它自由漫游。
https://x.com/SolRouterAI/status/2056755537149067582
他们把自由发挥的 agent 循环换成了所谓的引导式推理图——Mermaid 流程图,agent 顺着节点一个一个走。动作节点直接调工具、零 LLM 调用,分支用一个大约 100 token 的小求解器。怎么研究一个 token 的逻辑被编码进了图里,而不是每次查询都从头重新推导一遍。他们报告的结果是:比标准 agentic 循环快两倍、成本只有三分之一。这是一股安静的反向潮流——约束循环,而不是让它自由漫游。
#5
@isaac_ar
https://x.com/isaac_ar/status/2056737136183833056
他做了一个据他说是第一个端到端的 AI agentic 业务工作流,合规是直接烤进 agentic 循环本身的,不是事后再贴上去的。为了把架构弄对,他在十个月里把这个 App 重写了三次。他在融到任何钱之前就拿下了第一批做试点的企业客户。他最后那句话,正是这个生态角落的整套精神:你就直接去做就行了。
https://x.com/isaac_ar/status/2056737136183833056
他做了一个据他说是第一个端到端的 AI agentic 业务工作流,合规是直接烤进 agentic 循环本身的,不是事后再贴上去的。为了把架构弄对,他在十个月里把这个 App 重写了三次。他在融到任何钱之前就拿下了第一批做试点的企业客户。他最后那句话,正是这个生态角落的整套精神:你就直接去做就行了。
#6
@liliangjya5
https://x.com/liliangjya5/status/2056736692581892374
他的 ICML workshop 论文讲了一个表面平实、其实很实用的点:当团队大量部署 agent,token 成本就变成了一个基础设施问题,而解法不在于工具在哪儿跑,而在于 agent 在能动手之前要想多少。优化路径是 脚本到 CLI 到 hook。在 Claude Sonnet 4.6 的一个报告任务上、冷缓存的关键数字是:一个普通脚本只省 2.2%,惰性 MCP 省 10.9%,CLI 省 56.4%,hook 省 80.5%。同样的任务,agent 的决策量差得离谱。教训是:在对的时间、用最小够用的 schema,让对的工具出现在 agent 面前。
https://x.com/liliangjya5/status/2056736692581892374
他的 ICML workshop 论文讲了一个表面平实、其实很实用的点:当团队大量部署 agent,token 成本就变成了一个基础设施问题,而解法不在于工具在哪儿跑,而在于 agent 在能动手之前要想多少。优化路径是 脚本到 CLI 到 hook。在 Claude Sonnet 4.6 的一个报告任务上、冷缓存的关键数字是:一个普通脚本只省 2.2%,惰性 MCP 省 10.9%,CLI 省 56.4%,hook 省 80.5%。同样的任务,agent 的决策量差得离谱。教训是:在对的时间、用最小够用的 schema,让对的工具出现在 agent 面前。
#7
@aipulseda1ly
https://x.com/aipulseda1ly/status/2056866007851880568
他用同一个 Gemini 3.5 Flash 模型跑了两种方式,这个差距就是整个循环故事的核心。在 AI Studio 聊天界面、开高思考,它 10 秒一次性写出 800 行、零错误。通过 Antigravity Agent API,完全一样的模型产出了 1800 行、架构详细得多,光一遍就花了 4 分钟、跨 4 轮迭代地思考。他的观点很扎实:这不是模型升级,这是你把一个模型放进一个背后有真实算力的 agentic 循环时会发生的事。
https://x.com/aipulseda1ly/status/2056866007851880568
他用同一个 Gemini 3.5 Flash 模型跑了两种方式,这个差距就是整个循环故事的核心。在 AI Studio 聊天界面、开高思考,它 10 秒一次性写出 800 行、零错误。通过 Antigravity Agent API,完全一样的模型产出了 1800 行、架构详细得多,光一遍就花了 4 分钟、跨 4 轮迭代地思考。他的观点很扎实:这不是模型升级,这是你把一个模型放进一个背后有真实算力的 agentic 循环时会发生的事。
#8
@Danny_H_W
https://x.com/Danny_H_W/status/2056831148349632688
React Native OPO 上的一个演讲预告了 autoresearch 一个真正非预训练的用法:别再做性能剖析了,开始写提示词,用 MCP 跑无限的 auto-research 循环。卖点是用一个通过 metro-mcp 连到 React Native 应用上的 auto-research skill,自主地改进 App 的性能。这是循环模式逃出 ML 实验室——一个 agent 在真实的生产移动代码库里对着真实性能指标迭代,而不是对着一个训练脚本。值得关注,因为 autoresearch 正在从模型研发往外泛化。
https://x.com/Danny_H_W/status/2056831148349632688
React Native OPO 上的一个演讲预告了 autoresearch 一个真正非预训练的用法:别再做性能剖析了,开始写提示词,用 MCP 跑无限的 auto-research 循环。卖点是用一个通过 metro-mcp 连到 React Native 应用上的 auto-research skill,自主地改进 App 的性能。这是循环模式逃出 ML 实验室——一个 agent 在真实的生产移动代码库里对着真实性能指标迭代,而不是对着一个训练脚本。值得关注,因为 autoresearch 正在从模型研发往外泛化。
#9
@hasantoxr
https://x.com/hasantoxr/status/2056808307155984570
有人做了 ARGO,一个本地 agent,100% 在你的笔记本上跑 Manus 式的自主任务执行,不上云、不收月费、数据不离开机器。你描述一个任务,它就规划步骤、调工具、跑循环、写报告,全程离线。它能成而大多数本地工具不行的原因:它带了一整套多 agent 任务引擎——意图识别、规划、执行、工具调用、自我反思、自我总结,还有 human-in-the-loop,让你在它跑之前用自然语言改计划。完全自托管的自主循环。
https://x.com/hasantoxr/status/2056808307155984570
有人做了 ARGO,一个本地 agent,100% 在你的笔记本上跑 Manus 式的自主任务执行,不上云、不收月费、数据不离开机器。你描述一个任务,它就规划步骤、调工具、跑循环、写报告,全程离线。它能成而大多数本地工具不行的原因:它带了一整套多 agent 任务引擎——意图识别、规划、执行、工具调用、自我反思、自我总结,还有 human-in-the-loop,让你在它跑之前用自然语言改计划。完全自托管的自主循环。
#10
@IntologyAI
https://x.com/IntologyAI/status/2056764236668493868
他们发布了 NanoGPT-Bench,一个内部评测,在一个背后有几个月人类进展的真实 AI 研发问题上测试 agent。核心结果是一盆冷水:Codex、Claude Code 和 Autoresearch 只复现了人类进展的 9.3%,而且主要是靠调超参数、绕开真正的算法研究。评测是完全自主、端到端的,没有人工干预、没有联网,标准化到一个 5 个月的世界纪录窗口。这是关于自主研究循环今天到底走到哪一步的、最诚实的一个数据点。
https://x.com/IntologyAI/status/2056764236668493868
他们发布了 NanoGPT-Bench,一个内部评测,在一个背后有几个月人类进展的真实 AI 研发问题上测试 agent。核心结果是一盆冷水:Codex、Claude Code 和 Autoresearch 只复现了人类进展的 9.3%,而且主要是靠调超参数、绕开真正的算法研究。评测是完全自主、端到端的,没有人工干预、没有联网,标准化到一个 5 个月的世界纪录窗口。这是关于自主研究循环今天到底走到哪一步的、最诚实的一个数据点。
#11
@nateberkopec
https://x.com/nateberkopec/status/2056553254763528359
他把 autoresearch 对准了一个真实世界的系统问题,得到了一个干净的否定结果,而这恰恰是一个好循环该干的事。拿它跑一个真实的 Rails 应用、调 MALLOC_CONF,他仍然没看到任何一种组合能在不牺牲吞吐的前提下降低常驻内存。他的建议是:MALLOC_CONF 干脆别设。这是把 autoresearch 当成一个诚实的实验执行器,而不是炒作机器——有时候循环告诉你最有价值的事,就是这儿啥也没有。
https://x.com/nateberkopec/status/2056553254763528359
他把 autoresearch 对准了一个真实世界的系统问题,得到了一个干净的否定结果,而这恰恰是一个好循环该干的事。拿它跑一个真实的 Rails 应用、调 MALLOC_CONF,他仍然没看到任何一种组合能在不牺牲吞吐的前提下降低常驻内存。他的建议是:MALLOC_CONF 干脆别设。这是把 autoresearch 当成一个诚实的实验执行器,而不是炒作机器——有时候循环告诉你最有价值的事,就是这儿啥也没有。
#12
@caspar_br
https://x.com/caspar_br/status/2056542918463394038
他点出了 Claude Managed Agents 里一个被低估的功能:在 agent 循环里内置解释器。设想一个云端 agent 拿到一个 10000 行的支持工单 CSV。没有代码运行时,它只能在上下文里对着原始行硬推理,又慢又有损。有了解释器,它一回合内就写代码去解析 CSV、按类别分组、计数并按频率排序、每组抽三条正文、返回一个小表格。一个更轻量、就活在循环里的运行时处理掉这些沙盒形态的活儿,不用 bash。这就是循环不再被真实数据噎住的方式。
https://x.com/caspar_br/status/2056542918463394038
他点出了 Claude Managed Agents 里一个被低估的功能:在 agent 循环里内置解释器。设想一个云端 agent 拿到一个 10000 行的支持工单 CSV。没有代码运行时,它只能在上下文里对着原始行硬推理,又慢又有损。有了解释器,它一回合内就写代码去解析 CSV、按类别分组、计数并按频率排序、每组抽三条正文、返回一个小表格。一个更轻量、就活在循环里的运行时处理掉这些沙盒形态的活儿,不用 bash。这就是循环不再被真实数据噎住的方式。
#13
@koder0x
https://x.com/koder0x/status/2056793113763479747
他对长跑自主性的迷信狠狠地泼了冷水:把长任务委派给 AI agent 是一笔糟糕的赌注,不是因为 AI 干不了,而是因为你在第 6 步做完之前不知道第 3 步是错的,而每一个下游步骤都继承了这个毒。监督的算术只在啥都不出错时才成立,而总有东西会出错。他开的方子是紧凑循环——短委派、验证、下一步——他认为这并不更慢,只是在同样的速度下更安全。这是对那种把委派长度当成绩效的叙事的一个有用反制。
https://x.com/koder0x/status/2056793113763479747
他对长跑自主性的迷信狠狠地泼了冷水:把长任务委派给 AI agent 是一笔糟糕的赌注,不是因为 AI 干不了,而是因为你在第 6 步做完之前不知道第 3 步是错的,而每一个下游步骤都继承了这个毒。监督的算术只在啥都不出错时才成立,而总有东西会出错。他开的方子是紧凑循环——短委派、验证、下一步——他认为这并不更慢,只是在同样的速度下更安全。这是对那种把委派长度当成绩效的叙事的一个有用反制。
#14
@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2056748460829761628
他的 agent harness 进化史,是一句话版的、跑循环这帮人到底走到哪儿的历史:先是 claude code,然后 codex,然后 droid,然后自己用 Python tmux 拼 Codex 管道,然后是带自定义扩展、做 agent 群和 autoresearch 的 pi,最后醒悟过来——omp 早就把他在搭的东西全做了,而且更好更快、还是同时做的。一个追逐自主循环的高手的诚实弧线:发现前沿早就把他套了一圈。
https://x.com/usr_bin_roygbiv/status/2056748460829761628
他的 agent harness 进化史,是一句话版的、跑循环这帮人到底走到哪儿的历史:先是 claude code,然后 codex,然后 droid,然后自己用 Python tmux 拼 Codex 管道,然后是带自定义扩展、做 agent 群和 autoresearch 的 pi,最后醒悟过来——omp 早就把他在搭的东西全做了,而且更好更快、还是同时做的。一个追逐自主循环的高手的诚实弧线:发现前沿早就把他套了一圈。
📡 生态产品雷达
生态产品雷达
Autoresearch(Karpathy)- 本周被 Anthropic 收购的、开源的过夜实验循环;整场讨论的引力中心。
Claude Managed Agents - Anthropic 的 API,把 agent 循环和沙盒拆开,支持自托管执行、解释器就活在循环里。
Google Antigravity - 独立的 agent 优先桌面端,现在还出了 Agent API,同一个模型一旦进了真实循环表现就完全不同。
Codex - 大家真正拿来跑 autoresearch 式循环的 harness,从反向代理到过夜构建。
NanoGPT-Bench(Intology)- 那个泼冷水的评测,显示 agent 只复现了人类 AI 研发进展的 9.3%。
pi / omp - 做 agent 群和 autoresearch 的高手级 harness,前沿这帮人一直在它们之间迁移。
Autoresearch(Karpathy)- 本周被 Anthropic 收购的、开源的过夜实验循环;整场讨论的引力中心。
Claude Managed Agents - Anthropic 的 API,把 agent 循环和沙盒拆开,支持自托管执行、解释器就活在循环里。
Google Antigravity - 独立的 agent 优先桌面端,现在还出了 Agent API,同一个模型一旦进了真实循环表现就完全不同。
Codex - 大家真正拿来跑 autoresearch 式循环的 harness,从反向代理到过夜构建。
NanoGPT-Bench(Intology)- 那个泼冷水的评测,显示 agent 只复现了人类 AI 研发进展的 9.3%。
pi / omp - 做 agent 群和 autoresearch 的高手级 harness,前沿这帮人一直在它们之间迁移。
评论