2026年5月21日loop

Loop 日报: 2026-05-19

这周，循环不再是个小众执念，而是成了头条：Karpathy 开源的 autoresearch 项目被 Anthropic 收编，整条时间线终于反应过来跑循环这帮人几个月前就懂的事——前沿不再是最聪明的那个单一答案，而是给一个 agent 一个脚本、一个冻结的指标、一笔算力预算，让它过夜地迭代。在收购的噪音底下，真正的 builder 们一直在出那些不光鲜的部分：成本优化过的循环、把合规烤进去的循环、诚实地揭示自主研究还有多远的基准测试，以及那条反复出现的残酷教训——模型是等式的一半，循环是另一半。

💡#1

@ihtesham2005
https://x.com/ihtesham2005/status/2056802098822685052
他扒了那篇新出的 AI for Auto-Research 论文，把真正重要的数字挑了出来。AI Scientist 生成一篇完整论文大约花 15 美元。FARS 跑了 228 小时、烧掉 114 亿 token、产出 100 篇论文，平均每 2.3 小时一篇。ARIS 过夜跑了 20 多个 GPU 实验，删掉站不住的论点，靠评审加修订的循环把草稿评分从 5.0 推到了 7.5。他那句判断很到位：生产一篇论文的成本在崩塌，但信任一篇论文的成本正要上升，所以验证才是真正的护城河。

💡#2

@ChrisRyViss
https://x.com/ChrisRyViss/status/2056789460319392160
他完整摆出了一套基于 Karpathy 式 autoresearch 的自我改进交易大脑，每个子大脑一个循环。四个主子大脑——回测库、实时行情、突发新闻、测试结果——一个喂一个。每天夜里它跑 EOD 测试报告，调整加权比例和打法、做多时间框架的 K 线和价值缺口分析、改算法。库提供知识，实时 RSS 提供变量，整套东西朝着越来越准的胜率提醒复利。这就是把 autoresearch 对准市场、而不是对准训练脚本。

💡#3

@dosco
https://x.com/dosco/status/2056551223495643418
他之前做过一个实验：Codex 一个周末就用 Go 写出了一个零依赖、支持 HTTP 1/2/3 的反向代理，比 Cloudflare 那个 Rust 版和 nginx 都快，然后在一个 auto-research 式的循环里把它改进了。他把功劳全归给 Go 内置的测试和基准支持，以及它扎实的标准库，正是这些让模型能快速推进、快速验证。这就是一个能跑通的 autoresearch 循环的全部秘诀：一个紧凑、快速、客观的反馈信号，让 agent 不用人坐在旁边就能不停迭代。

💡#4

@SolRouterAI
https://x.com/SolRouterAI/status/2056755537149067582
他们把自由发挥的 agent 循环换成了所谓的引导式推理图——Mermaid 流程图，agent 顺着节点一个一个走。动作节点直接调工具、零 LLM 调用，分支用一个大约 100 token 的小求解器。怎么研究一个 token 的逻辑被编码进了图里，而不是每次查询都从头重新推导一遍。他们报告的结果是：比标准 agentic 循环快两倍、成本只有三分之一。这是一股安静的反向潮流——约束循环，而不是让它自由漫游。

💡#5

@isaac_ar
https://x.com/isaac_ar/status/2056737136183833056
他做了一个据他说是第一个端到端的 AI agentic 业务工作流，合规是直接烤进 agentic 循环本身的，不是事后再贴上去的。为了把架构弄对，他在十个月里把这个 App 重写了三次。他在融到任何钱之前就拿下了第一批做试点的企业客户。他最后那句话，正是这个生态角落的整套精神：你就直接去做就行了。

💡#6

@liliangjya5
https://x.com/liliangjya5/status/2056736692581892374
他的 ICML workshop 论文讲了一个表面平实、其实很实用的点：当团队大量部署 agent，token 成本就变成了一个基础设施问题，而解法不在于工具在哪儿跑，而在于 agent 在能动手之前要想多少。优化路径是脚本到 CLI 到 hook。在 Claude Sonnet 4.6 的一个报告任务上、冷缓存的关键数字是：一个普通脚本只省 2.2%，惰性 MCP 省 10.9%，CLI 省 56.4%，hook 省 80.5%。同样的任务，agent 的决策量差得离谱。教训是：在对的时间、用最小够用的 schema，让对的工具出现在 agent 面前。

💡#7

@aipulseda1ly
https://x.com/aipulseda1ly/status/2056866007851880568
他用同一个 Gemini 3.5 Flash 模型跑了两种方式，这个差距就是整个循环故事的核心。在 AI Studio 聊天界面、开高思考，它 10 秒一次性写出 800 行、零错误。通过 Antigravity Agent API，完全一样的模型产出了 1800 行、架构详细得多，光一遍就花了 4 分钟、跨 4 轮迭代地思考。他的观点很扎实：这不是模型升级，这是你把一个模型放进一个背后有真实算力的 agentic 循环时会发生的事。

💡#8

@Danny_H_W
https://x.com/Danny_H_W/status/2056831148349632688
React Native OPO 上的一个演讲预告了 autoresearch 一个真正非预训练的用法：别再做性能剖析了，开始写提示词，用 MCP 跑无限的 auto-research 循环。卖点是用一个通过 metro-mcp 连到 React Native 应用上的 auto-research skill，自主地改进 App 的性能。这是循环模式逃出 ML 实验室——一个 agent 在真实的生产移动代码库里对着真实性能指标迭代，而不是对着一个训练脚本。值得关注，因为 autoresearch 正在从模型研发往外泛化。

💡#9

@hasantoxr
https://x.com/hasantoxr/status/2056808307155984570
有人做了 ARGO，一个本地 agent，100% 在你的笔记本上跑 Manus 式的自主任务执行，不上云、不收月费、数据不离开机器。你描述一个任务，它就规划步骤、调工具、跑循环、写报告，全程离线。它能成而大多数本地工具不行的原因：它带了一整套多 agent 任务引擎——意图识别、规划、执行、工具调用、自我反思、自我总结，还有 human-in-the-loop，让你在它跑之前用自然语言改计划。完全自托管的自主循环。

💡#10

@IntologyAI
https://x.com/IntologyAI/status/2056764236668493868
他们发布了 NanoGPT-Bench，一个内部评测，在一个背后有几个月人类进展的真实 AI 研发问题上测试 agent。核心结果是一盆冷水：Codex、Claude Code 和 Autoresearch 只复现了人类进展的 9.3%，而且主要是靠调超参数、绕开真正的算法研究。评测是完全自主、端到端的，没有人工干预、没有联网，标准化到一个 5 个月的世界纪录窗口。这是关于自主研究循环今天到底走到哪一步的、最诚实的一个数据点。

💡#11

@nateberkopec
https://x.com/nateberkopec/status/2056553254763528359
他把 autoresearch 对准了一个真实世界的系统问题，得到了一个干净的否定结果，而这恰恰是一个好循环该干的事。拿它跑一个真实的 Rails 应用、调 MALLOC_CONF，他仍然没看到任何一种组合能在不牺牲吞吐的前提下降低常驻内存。他的建议是：MALLOC_CONF 干脆别设。这是把 autoresearch 当成一个诚实的实验执行器，而不是炒作机器——有时候循环告诉你最有价值的事，就是这儿啥也没有。

💡#12

@caspar_br
https://x.com/caspar_br/status/2056542918463394038
他点出了 Claude Managed Agents 里一个被低估的功能：在 agent 循环里内置解释器。设想一个云端 agent 拿到一个 10000 行的支持工单 CSV。没有代码运行时，它只能在上下文里对着原始行硬推理，又慢又有损。有了解释器，它一回合内就写代码去解析 CSV、按类别分组、计数并按频率排序、每组抽三条正文、返回一个小表格。一个更轻量、就活在循环里的运行时处理掉这些沙盒形态的活儿，不用 bash。这就是循环不再被真实数据噎住的方式。

💡#13

@koder0x
https://x.com/koder0x/status/2056793113763479747
他对长跑自主性的迷信狠狠地泼了冷水：把长任务委派给 AI agent 是一笔糟糕的赌注，不是因为 AI 干不了，而是因为你在第 6 步做完之前不知道第 3 步是错的，而每一个下游步骤都继承了这个毒。监督的算术只在啥都不出错时才成立，而总有东西会出错。他开的方子是紧凑循环——短委派、验证、下一步——他认为这并不更慢，只是在同样的速度下更安全。这是对那种把委派长度当成绩效的叙事的一个有用反制。

💡#14

@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2056748460829761628
他的 agent harness 进化史，是一句话版的、跑循环这帮人到底走到哪儿的历史：先是 claude code，然后 codex，然后 droid，然后自己用 Python tmux 拼 Codex 管道，然后是带自定义扩展、做 agent 群和 autoresearch 的 pi，最后醒悟过来——omp 早就把他在搭的东西全做了，而且更好更快、还是同时做的。一个追逐自主循环的高手的诚实弧线：发现前沿早就把他套了一圈。

📡 生态产品雷达

生态产品雷达

Autoresearch（Karpathy）- 本周被 Anthropic 收购的、开源的过夜实验循环；整场讨论的引力中心。
Claude Managed Agents - Anthropic 的 API，把 agent 循环和沙盒拆开，支持自托管执行、解释器就活在循环里。
Google Antigravity - 独立的 agent 优先桌面端，现在还出了 Agent API，同一个模型一旦进了真实循环表现就完全不同。
Codex - 大家真正拿来跑 autoresearch 式循环的 harness，从反向代理到过夜构建。
NanoGPT-Bench（Intology）- 那个泼冷水的评测，显示 agent 只复现了人类 AI 研发进展的 9.3%。
pi / omp - 做 agent 群和 autoresearch 的高手级 harness，前沿这帮人一直在它们之间迁移。

← 上一篇

超级用户日报: 2026-05-19

Runtime 想把编码 agent 塞进不会写代码的人手里

← 返回所有文章

加载中...

Loop 日报: 2026-05-19

相关文章

评论