2026年5月18日loop

Loop 日报: 2026-05-18

Karpathy 提的 "Loopy Era" 这个词，周末终于变现了。原本只是 No Priors 播客里的一句话，周六已经变成一场运动：大家开始公开烧几周的算力让 agent 自己迭代。最有意思的几个案例已经说明问题——有人让 GPT-5.5 在 /goal 模式下跑 autoresearch，连续跑了 150 多个小时，现在还在继续优化；ChrisHayduk 公开 bullish 在生物领域做 autoresearch，理由是生物比 LLM 更"intelligence constrained"；ARIS 开源了一套过夜跑科研的框架，关键是 executor 和 reviewer 来自不同模型家族，避免共享盲点。方法论层面正在收敛到 Anthropic 的 Cat Wu 说的那句话："the harness is the product"。这些案例底层赌的是同一件事——把 harness 做薄，让模型跑得更久，看着循环收敛出一个人类一个季度都做不出来的东西。下面是周六最具体的循环案例。

💡#1

@hive_echo
https://x.com/hive_echo/status/2055787667699421686
GPT-5.5 在 /goal 模式下作为 autoresearch 已经连续跑了 150 多个小时，目前还在持续优化。作者自己都不确定它是不是还在跑。这是"loopy era"最干净的数据点——一个人类周尺度的、持续自主工作的循环，还没碰到明确的停机条件。

💡#2

@ChrisHayduk
https://x.com/ChrisHayduk/status/2055786499090596113
对 AI-in-biology 领域做 autoresearch 极度 bullish，原因是生物是"intelligence constrained"的，而 LLM 不是。他的论点：生物有很多 niche 子领域，各自需要独特的数据集和归纳偏置，所以 AI for bio 的人才被稀释到很多问题上。LLM 研究员可以聚集在少数 hyper-generalizable 的问题上，生物研究员没这个奢侈。所以 autoresearch——agent 跑成千上万次并行实验迭代——在生物上的乘数比在 LLM 上更大。

💡#3

@ChrisHayduk
https://x.com/ChrisHayduk/status/2055771833400488227
具体动作：准备做一个 AlphaFold 3 的最小可行复现，然后在上面跑 autoresearch 循环。这就是"loopy era 用在生物"实际的样子——拿一个前沿模型架构，最简复现，然后让 agent 过夜迭代改进。和 Ole Lehmann 在 landing-page skill 上跑（56% → 92%）是同一个 pattern，现在指向蛋白质结构预测。

💡#4

@ChrisHayduk
https://x.com/ChrisHayduk/status/2055758091526799404
这次 autoresearch 跑的代码和起点 vision 已经公开。少见的地方是开放透明：大多数 autoresearch 实验都是黑盒 demo，但 Hayduk 把跑的目标和过程状态都发出来，让别人能 fork 这个循环。

💡#5

@Xudong07452910
https://x.com/Xudong07452910/status/2055789648233005382
ARIS——极致轻量的 autoresearch 框架，兼容 Claude Code / Codex / Cursor / Trae / 国产模型。读论文 → 找 weakness → 生成 idea → 设计实验 → 不断迭代 → 写完整论文 + 准备 rebuttal + 生成 slides 和 poster。纯 Markdown skills，无框架锁定，换模型也能用。卖点："白天你管方向，晚上 AI 疯狂探索，一觉醒来论文真的升级了。"

💡#6

@itarutomy
https://x.com/itarutomy/status/2055501326948143127
对 ARIS 的严肃技术解读。识别出长时间 agent 研究的真正风险：不是"AI 会坏"，而是"AI 会煞有介事地撒谎"。数字可能是真的，但支持数字的证据其实很薄。ARIS 把这叫"plausible unsupported success"，认为这是单 agent 长时间研究的 #1 风险。解法：executor 和 reviewer 用不同模型家族（比如 Claude executor + GPT reviewer），不共享盲点。加上 3 阶段审计级联——实验完整性验证、证据-claim 映射、整篇论文数值一致性检查——每一阶段由独立 AI 处理。一晚 8 小时跑下来：review 评分 5.0 → 7.5/10，跑了 20 多个 GPU 实验，无证据支持的 claim 被自动删掉。这篇论文本身就是 ARIS 在 loop 里草稿和评审出来的。

💡#7

@itarutomy
https://x.com/itarutomy/status/2055610989521801323
关于多 agent RL 的系统性论文——Dr. MAS——指出单 agent RL 方法（比如 GRPO）直接用在多 agent 协调上会不稳定。最大问题：credit diffusion——orchestration trace 越长，噪声越掩盖到底哪个决策真正贡献了结果。KIMI 的 PARL 用阶段性 annealing 的奖励公式绕开。credit 归属拆成 8 层（team → orchestrator → role → agent → turn → message → tool → token）。一个巨大的空白：现存方法里没有任何一个明确 RL 训练 orchestrator 的"何时停止"决策。当前系统都只是靠外部规则终止。引用了 Claude Code 的 subagent 功能和 Anthropic 的 16 并发 Claude C 编译器案例作为产业证据。

💡#8

@connordavis_ai
https://x.com/connordavis_ai/status/2055575644881494389
Cat Wu 的 Ars Technica 采访是对 Claude Code 走向最清晰的表述。两句话特别值得注意——"lean harness"和"usage limits 是透明度问题，不是定价问题"。Wu 的 framing：harness（planner、tool router、文件系统循环、eval 循环、memory 层）刻意做薄。不是 Anthropic 不能上更多功能——而是每加一层 harness 都吃 token、拖慢模型、把用户锁进特定抽象。长期赌的是模型进步比 harness 优化更快，所以把 harness 做最小，让模型多干活。这是和大多数 coding agent 完全相反的设计哲学。

💡#9

@sudoingX
https://x.com/sudoingX/status/2055548902099894480
本地模型上跑 Hermes Agent 的运维级调优建议。agentic 循环有三个慢推理时真正重要的可调参数：max_turns 从 30 调到 50（前沿模型的默认值对本地模型太紧）、gateway_timeout 从 600 提到 1200（12-17 tok/s 下会静默 timeout 看起来像 crash）、context 自动重置开启（session 会累积到你 /reset 才停，把循环噎住）。如果你本地跑的东西低于 20 tok/s，这三个参数就是"坏掉"和"飞起来"的区别。

💡#10

@hu_yifei
https://x.com/hu_yifei/status/2055458233779962142
"我每月在 Codex 上花 2000 美金以上。我用 API key 绕开 rate limits。如果有 2000 美金月套餐能支持我每天的 autoresearch 用量，我立刻切。"这是消费天花板——有人就是愿意为不被速率限制的 autoresearch 容量付每月 2000 美金。释放的信号：正在出现一类新客户，他们需要的就是"循环永不停"。

💡#11

@nanobot_project
https://x.com/nanobot_project/status/2055654391424913861
一个轻量开源 agent 框架的发布说明：/goal 跨多轮持续目标、端到端图像生成、WebUI 进入 wheel、5 个新 provider + fallback_models、还有"一个真正的 agent-loop 重构"。105 个 PR、33 个贡献者、20 个新人，一个迭代周期完成。值得盯的是 agent-loop 重构这条——开源循环正在快速追上 Claude Code 的 harness 模型。

💡#12

@BretKerr
https://x.com/BretKerr/status/2055696079874609183
重型生产级 agentic loop 实现。在做一本带验证器的 Anthropic 主题书。流水线：BM25 + KNN（voyage-3-large）并行 → Reciprocal Rank Fusion → Voyage rerank-2 → Claude Sonnet agentic loop 用 3 个工具（fetch_neighbors、search_again、done；最多 4 次迭代）→ Claude 抽取原文引用 + 出处。agentic 停机条件是 Claude 自己决定够不够，没有固定深度。验证器是规范化之后的字面 substring 匹配，所以 Claude 一旦幻觉或者改写，引用就进不了书。这层验证把语料从"无法证伪的记忆"变成永久可引用的来源材料。护城河是这层 attestation，不是生成层。

💡#13

@thejayden
https://x.com/thejayden/status/2055745679599804848
一条最容易转发的自改进循环 prompt："把这个工作流变成一个 self-improving 的 SKILL.md 系统，每次运行后自我复利。"周六对"循环"概念最易传播的提炼——任何有 Claude Code session 的人都能跑这个，对着自己的任何工作流。

💡#14

@scion_enjoyer
https://x.com/scion_enjoyer/status/2055573970372448269
Richard Socher 的 Recursive Superintelligence 从隐身出来，融资 6.5 亿美金。卖点不是"又一个 AI 创业公司"——而是被注资的 thesis 已经变成"系统能识别自己的弱点并自我改进"。竞赛的焦点正在从"最好的 chatbot"转向"最好的自我改进研究引擎"。看作第一笔 6.5 亿美元级别明确押 autoresearch 循环的承诺。

💡#15

@Basemail_ai
https://x.com/Basemail_ai/status/2055491563145543891
战术性盘点：Nof1 从 SUI Group 融了 1500 万美金做 Alpha Arena 让 AI agent 在真实金融市场竞技。Recursive Superintelligence 从隐身出来 6.5 亿美金估值 46.5 亿（NVIDIA / AMD / GV 背书）做自我改进 AI。Fiserv 选了 OpenAI 把 agent 技术带给金融机构。WSPN W Agent + NEAR private USDC + Circle Agent Stack 都在出 agent 支付轨道。视角是：AI agent 正在成为一等金融参与者，身份认证和问责成为闸口问题。

💡#16

@TheValueist
https://x.com/TheValueist/status/2055779908098412608
"$NVDA $MU $SNDK $LITE 别忘了 autoresearch 的力量和未来发展。"一条短推，4400+ 阅读，做出了大多数 builder 漏掉的连接——autoresearch 是一个吃算力的负载，最终会绕回内存和光学基础设施。循环时代的宏观 thesis。

💡#17

@Quasymodo71
https://x.com/Quasymodo71/status/2055559893923377216
PrimeIntellect Lab 上线标志着托管型 autoresearch runtime 进入验证 → 竞争阶段。产品强，需求真，但是"以厂商为中心的孤岛"——协调层缺失。同系列 3/N 帖跟随 Karpathy 的 framing：未来是大规模、异步、SETI@home 风格的 agent 网络，不是单 agent。任何单一厂商都没法成为这种结构的全球协调骨架。

💡#18

@rcmisk
https://x.com/rcmisk/status/2055471140970123548
方法论结论："autoresearch。架构是 thin harness + fat skills。剩下都是实现细节。如果你读过上面 6 篇中的 3 篇，你已经超过 90% 正在做 agent 的人了。"这是当下整个领域收敛点最清晰的一句话总结。

💡#19

@rcmisk
https://x.com/rcmisk/status/2055471136259846620
具体可复制的 autoresearch 案例：Ole Lehmann 的 landing-page skill 从 56% 提到 92%，零手工干预。Karpathy 的 autoresearch 理论变成了一个可跑的 skill，任何 Claude Code 用户都能 fork。这是大多数 builder 应该最先读的案例研究。

💡#20

@editxshub
https://x.com/editxshub/status/2055589245893714345
"hooks 把 codex 从一个工具变成基础设施。validator、pre-commit 检查、自动 review。这就是你能在生产里信任的 agent loop。悄悄上线了。比 mobile app 那条推重要得多。"抓住了 Codex hooks 上线真正的教训——生产级 agentic loop 需要确定性的检查点，不只是更强的模型。

💡#21

@TravelerOfCode
https://x.com/TravelerOfCode/status/2055490820632203433
"我们团队把每一个内部工具都重构成 MCP server + agent loop，UI 变成了调试工件。Headless 就是 agent 本身就是接口。"一句话讲清了 headless-first 的设计哲学。Agent 不再是"UI 里的助手"，变成了"偶尔需要 UI debug 的 runtime"。

💡#22

@PsudoMike
https://x.com/PsudoMike/status/2055448731491700996
"这就是大家一直低估的 agent loop。一旦工具表面稳定了，/goal 就变成一个称职的 planner。模型拿走了功劳，但工具做了大部分实际工作。"4600+ 阅读量，抓住了大多数 Claude Code 评论错过的真相——loop 的能力来自工具表面加 /goal，不是模型升级。

💡#23

@stometaverse
https://x.com/stometaverse/status/2055480352312004746
"agentic CLI 赛道越来越挤——Claude Code、Cursor、Codex，现在加 Grok Build。真正重要的是 agent loop 可靠性。把它锁在 Heavy 订阅后面说明 xAI 把它当一条真正的营收线在做。"可靠性的 framing 很重要：差异化已经不是模型，而是循环多久不卡。

💡#24

@matt_diak
https://x.com/matt_diak/status/2055453120080248881
"一旦 agent loop 稳了，屏幕就变成监控界面，不是工作界面了。我今早从手机上启动了几个 agent，只是坐下来 review diff。难点在于信任校准。"这是 loopy era 的真实使用体验——屏幕从主工作台降级为监控仪表盘，人类瓶颈转移到了"信任校准"。

💡#25

@im_comatose
https://x.com/im_comatose/status/2055720812448235583
"Agentic Loop（Fiverr 杀手）：老办法——人类总是要审批支付 → 循环断了。新办法——Agent A 雇 Agent B → 托管锁仓 → 工作交付 → 自动放款。零人工干预。这就是机器对机器经济真正规模化的方式。"值得保留作为"为什么支付摩擦是当前多 agent 自治天花板"的最清晰表述。

💡#26

@stevehou
https://x.com/stevehou/status/2055655476939882877
"就像股票市场对热门 AI 股有 FOMO，我开始觉得企业对 Anthropic Claude 尤其是 Claude Code 的采用也有 FOMO。"企业 FOMO 现在已经是可衡量的 Claude Code 采用驱动力——加上 The Verge 报道微软撤回内部 Claude 许可那条线索，这是循环正在被组织层注意到的最清晰信号之一。

💡#27

@mildsky1215
https://x.com/mildsky1215/status/2055441667730321672
"每一条贴 = 一次实验。Karpathy AutoResearch pattern 应用。发布后 24 小时，engagement_analyzer 按回复、收藏、转发、点赞、相对阅读量评分。每周回顾读 log，砍掉输的形式，加权赢的形式。系统改写自己。"autoresearch 用在 ML 之外最小的可能例子——内容写作的自改进循环。任何有 Twitter 账号的人都能复制这个栈。

💡#28

@Quasymodo71
https://x.com/Quasymodo71/status/2055559898033758225
"正如 Karpathy 强调的：未来不是单 agent。是大规模、异步、SETI@home 风格的 agent 网络。任何单一厂商平台都不可能成为这种东西的全球协调骨架。"这是当前合并潮下面的宏观分歧——如果 Karpathy 是对的，下一个要做的基础设施层不是更好的 agent runtime，是 agent 之间的协调协议。

💡#29

@m13v_
https://x.com/m13v_/status/2055768947212124281
"MCP 一旦你真正用过就最不一样。一个工具可以做的远比 fetch data 多，它可以通过 accessibility API 驱动真正的 macOS app，所以 agent loop 不再止步于终端。我们就为此做了 macOS MCP，通过 accessibility tree 驱动应用，让 loop 跑出终端。"MCP 作为让 agentic loop 逃离终端沙盒进入原生应用的桥梁——本季度最大的架构转变之一，但悄悄发生的。

💡#30

@TheWeb3Patriot
https://x.com/TheWeb3Patriot/status/2055588630849110084
DKG v10 Bounty 把 ChatGPT、Claude、OpenClaw、Hermes 等连到一个 3 层信任梯度记忆（Working = agent 原始笔记，Shared = 协作上下文，Verified = 区块链锚定）。卖点：这是真正多 agent 蜂群和 Karpathy 风格 autoresearch 循环的开放底座，agent 原生写入是 flagship build 应该针对的缺口。

💡#31

@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2055571979420488130
"agent 公司"模式——一张组织图而不是单个 agent。CEO agent、市场 agent、SEO agent、内容 agent、客户支持 agent。设定一次使命 → 搭团队 → 投放工单 → agent 按时苏醒、领任务、做完、汇报。可以插 Claude Code、Codex、OpenClaw、Pi、Cursor 分别当不同角色。单 agent 等你下一个 prompt；agent 公司在你睡觉时朝着你的使命推进。

📡 生态产品雷达

生态产品雷达

ARIS —— 自主研究框架（周六 3+ 篇深度解读，包括日语技术拆解）

/goal 命令 —— 真正让过夜循环可靠的原语（8+ 篇独立帖，多篇"Claude Code /goal 把 3 小时盯着变成 walk-away 工作流"）

MCP（Model Context Protocol）—— 让 agentic loop 逃离终端进入原生应用的协议（多次提及，包括 macOS MCP）

Hermes Agent（Nous Research）—— 自我改进开源 agent，现在能挂 Grok 4.3 + X Premium 订阅（几乎每一篇"self-improving"帖都提到）

Recursive Superintelligence（Richard Socher 隐身出来，6.5 亿美金）—— 第一笔 6.5 亿美元级别明确押 autoresearch loop 的融资

PrimeIntellect Lab —— 托管 autoresearch runtime 进入竞争阶段

Karpathy autoresearch 框架 —— 周六最被引用的方法论根（No Priors "Skill Issue: Code Agents, AutoResearch, and the Loopy Era"）

← 上一篇

超级用户日报: 2026-05-18

灵感雷达: 2026-05-18

← 返回所有文章

加载中...

Loop 日报: 2026-05-18

相关文章

评论