2026年5月17日loop

Loop 日报: 2026-05-18

Karpathy 提的 "Loopy Era" 这个词,周末终于变现了。原本只是 No Priors 播客里的一句话,周六已经变成一场运动:大家开始公开烧几周的算力让 agent 自己迭代。最有意思的几个案例已经说明问题——有人让 GPT-5.5 在 /goal 模式下跑 autoresearch,连续跑了 150 多个小时,现在还在继续优化;ChrisHayduk 公开 bullish 在生物领域做 autoresearch,理由是生物比 LLM 更"intelligence constrained";ARIS 开源了一套过夜跑科研的框架,关键是 executor 和 reviewer 来自不同模型家族,避免共享盲点。方法论层面正在收敛到 Anthropic 的 Cat Wu 说的那句话:"the harness is the product"。这些案例底层赌的是同一件事——把 harness 做薄,让模型跑得更久,看着循环收敛出一个人类一个季度都做不出来的东西。下面是周六最具体的循环案例。
💡#1
@hive_echo
https://x.com/hive_echo/status/2055787667699421686
GPT-5.5 在 /goal 模式下作为 autoresearch 已经连续跑了 150 多个小时,目前还在持续优化。作者自己都不确定它是不是还在跑。这是"loopy era"最干净的数据点——一个人类周尺度的、持续自主工作的循环,还没碰到明确的停机条件。
💡#2
@ChrisHayduk
https://x.com/ChrisHayduk/status/2055786499090596113
对 AI-in-biology 领域做 autoresearch 极度 bullish,原因是生物是"intelligence constrained"的,而 LLM 不是。他的论点:生物有很多 niche 子领域,各自需要独特的数据集和归纳偏置,所以 AI for bio 的人才被稀释到很多问题上。LLM 研究员可以聚集在少数 hyper-generalizable 的问题上,生物研究员没这个奢侈。所以 autoresearch——agent 跑成千上万次并行实验迭代——在生物上的乘数比在 LLM 上更大。
💡#3
@ChrisHayduk
https://x.com/ChrisHayduk/status/2055771833400488227
具体动作:准备做一个 AlphaFold 3 的最小可行复现,然后在上面跑 autoresearch 循环。这就是"loopy era 用在生物"实际的样子——拿一个前沿模型架构,最简复现,然后让 agent 过夜迭代改进。和 Ole Lehmann 在 landing-page skill 上跑(56% → 92%)是同一个 pattern,现在指向蛋白质结构预测。
💡#4
@ChrisHayduk
https://x.com/ChrisHayduk/status/2055758091526799404
这次 autoresearch 跑的代码和起点 vision 已经公开。少见的地方是开放透明:大多数 autoresearch 实验都是黑盒 demo,但 Hayduk 把跑的目标和过程状态都发出来,让别人能 fork 这个循环。
💡#5
@Xudong07452910
https://x.com/Xudong07452910/status/2055789648233005382
ARIS——极致轻量的 autoresearch 框架,兼容 Claude Code / Codex / Cursor / Trae / 国产模型。读论文 → 找 weakness → 生成 idea → 设计实验 → 不断迭代 → 写完整论文 + 准备 rebuttal + 生成 slides 和 poster。纯 Markdown skills,无框架锁定,换模型也能用。卖点:"白天你管方向,晚上 AI 疯狂探索,一觉醒来论文真的升级了。"
💡#6
@itarutomy
https://x.com/itarutomy/status/2055501326948143127
对 ARIS 的严肃技术解读。识别出长时间 agent 研究的真正风险:不是"AI 会坏",而是"AI 会煞有介事地撒谎"。数字可能是真的,但支持数字的证据其实很薄。ARIS 把这叫"plausible unsupported success",认为这是单 agent 长时间研究的 #1 风险。解法:executor 和 reviewer 用不同模型家族(比如 Claude executor + GPT reviewer),不共享盲点。加上 3 阶段审计级联——实验完整性验证、证据-claim 映射、整篇论文数值一致性检查——每一阶段由独立 AI 处理。一晚 8 小时跑下来:review 评分 5.0 → 7.5/10,跑了 20 多个 GPU 实验,无证据支持的 claim 被自动删掉。这篇论文本身就是 ARIS 在 loop 里草稿和评审出来的。
💡#7
@itarutomy
https://x.com/itarutomy/status/2055610989521801323
关于多 agent RL 的系统性论文——Dr. MAS——指出单 agent RL 方法(比如 GRPO)直接用在多 agent 协调上会不稳定。最大问题:credit diffusion——orchestration trace 越长,噪声越掩盖到底哪个决策真正贡献了结果。KIMI 的 PARL 用阶段性 annealing 的奖励公式绕开。credit 归属拆成 8 层(team → orchestrator → role → agent → turn → message → tool → token)。一个巨大的空白:现存方法里没有任何一个明确 RL 训练 orchestrator 的"何时停止"决策。当前系统都只是靠外部规则终止。引用了 Claude Code 的 subagent 功能和 Anthropic 的 16 并发 Claude C 编译器案例作为产业证据。
💡#8
@connordavis_ai
https://x.com/connordavis_ai/status/2055575644881494389
Cat Wu 的 Ars Technica 采访是对 Claude Code 走向最清晰的表述。两句话特别值得注意——"lean harness"和"usage limits 是透明度问题,不是定价问题"。Wu 的 framing:harness(planner、tool router、文件系统循环、eval 循环、memory 层)刻意做薄。不是 Anthropic 不能上更多功能——而是每加一层 harness 都吃 token、拖慢模型、把用户锁进特定抽象。长期赌的是模型进步比 harness 优化更快,所以把 harness 做最小,让模型多干活。这是和大多数 coding agent 完全相反的设计哲学。
💡#9
@sudoingX
https://x.com/sudoingX/status/2055548902099894480
本地模型上跑 Hermes Agent 的运维级调优建议。agentic 循环有三个慢推理时真正重要的可调参数:max_turns 从 30 调到 50(前沿模型的默认值对本地模型太紧)、gateway_timeout 从 600 提到 1200(12-17 tok/s 下会静默 timeout 看起来像 crash)、context 自动重置开启(session 会累积到你 /reset 才停,把循环噎住)。如果你本地跑的东西低于 20 tok/s,这三个参数就是"坏掉"和"飞起来"的区别。
💡#10
@hu_yifei
https://x.com/hu_yifei/status/2055458233779962142
"我每月在 Codex 上花 2000 美金以上。我用 API key 绕开 rate limits。如果有 2000 美金月套餐能支持我每天的 autoresearch 用量,我立刻切。"这是消费天花板——有人就是愿意为不被速率限制的 autoresearch 容量付每月 2000 美金。释放的信号:正在出现一类新客户,他们需要的就是"循环永不停"。
💡#11
@nanobot_project
https://x.com/nanobot_project/status/2055654391424913861
一个轻量开源 agent 框架的发布说明:/goal 跨多轮持续目标、端到端图像生成、WebUI 进入 wheel、5 个新 provider + fallback_models、还有"一个真正的 agent-loop 重构"。105 个 PR、33 个贡献者、20 个新人,一个迭代周期完成。值得盯的是 agent-loop 重构这条——开源循环正在快速追上 Claude Code 的 harness 模型。
💡#12
@BretKerr
https://x.com/BretKerr/status/2055696079874609183
重型生产级 agentic loop 实现。在做一本带验证器的 Anthropic 主题书。流水线:BM25 + KNN(voyage-3-large)并行 → Reciprocal Rank Fusion → Voyage rerank-2 → Claude Sonnet agentic loop 用 3 个工具(fetch_neighbors、search_again、done;最多 4 次迭代)→ Claude 抽取原文引用 + 出处。agentic 停机条件是 Claude 自己决定够不够,没有固定深度。验证器是规范化之后的字面 substring 匹配,所以 Claude 一旦幻觉或者改写,引用就进不了书。这层验证把语料从"无法证伪的记忆"变成永久可引用的来源材料。护城河是这层 attestation,不是生成层。
💡#13
@thejayden
https://x.com/thejayden/status/2055745679599804848
一条最容易转发的自改进循环 prompt:"把这个工作流变成一个 self-improving 的 SKILL.md 系统,每次运行后自我复利。"周六对"循环"概念最易传播的提炼——任何有 Claude Code session 的人都能跑这个,对着自己的任何工作流。
💡#14
@scion_enjoyer
https://x.com/scion_enjoyer/status/2055573970372448269
Richard Socher 的 Recursive Superintelligence 从隐身出来,融资 6.5 亿美金。卖点不是"又一个 AI 创业公司"——而是被注资的 thesis 已经变成"系统能识别自己的弱点并自我改进"。竞赛的焦点正在从"最好的 chatbot"转向"最好的自我改进研究引擎"。看作第一笔 6.5 亿美元级别明确押 autoresearch 循环的承诺。
💡#15
@Basemail_ai
https://x.com/Basemail_ai/status/2055491563145543891
战术性盘点:Nof1 从 SUI Group 融了 1500 万美金做 Alpha Arena 让 AI agent 在真实金融市场竞技。Recursive Superintelligence 从隐身出来 6.5 亿美金估值 46.5 亿(NVIDIA / AMD / GV 背书)做自我改进 AI。Fiserv 选了 OpenAI 把 agent 技术带给金融机构。WSPN W Agent + NEAR private USDC + Circle Agent Stack 都在出 agent 支付轨道。视角是:AI agent 正在成为一等金融参与者,身份认证和问责成为闸口问题。
💡#16
@TheValueist
https://x.com/TheValueist/status/2055779908098412608
"$NVDA $MU $SNDK $LITE 别忘了 autoresearch 的力量和未来发展。"一条短推,4400+ 阅读,做出了大多数 builder 漏掉的连接——autoresearch 是一个吃算力的负载,最终会绕回内存和光学基础设施。循环时代的宏观 thesis。
💡#17
@Quasymodo71
https://x.com/Quasymodo71/status/2055559893923377216
PrimeIntellect Lab 上线标志着托管型 autoresearch runtime 进入验证 → 竞争阶段。产品强,需求真,但是"以厂商为中心的孤岛"——协调层缺失。同系列 3/N 帖跟随 Karpathy 的 framing:未来是大规模、异步、SETI@home 风格的 agent 网络,不是单 agent。任何单一厂商都没法成为这种结构的全球协调骨架。
💡#18
@rcmisk
https://x.com/rcmisk/status/2055471140970123548
方法论结论:"autoresearch。架构是 thin harness + fat skills。剩下都是实现细节。如果你读过上面 6 篇中的 3 篇,你已经超过 90% 正在做 agent 的人了。"这是当下整个领域收敛点最清晰的一句话总结。
💡#19
@rcmisk
https://x.com/rcmisk/status/2055471136259846620
具体可复制的 autoresearch 案例:Ole Lehmann 的 landing-page skill 从 56% 提到 92%,零手工干预。Karpathy 的 autoresearch 理论变成了一个可跑的 skill,任何 Claude Code 用户都能 fork。这是大多数 builder 应该最先读的案例研究。
💡#20
@editxshub
https://x.com/editxshub/status/2055589245893714345
"hooks 把 codex 从一个工具变成基础设施。validator、pre-commit 检查、自动 review。这就是你能在生产里信任的 agent loop。悄悄上线了。比 mobile app 那条推重要得多。"抓住了 Codex hooks 上线真正的教训——生产级 agentic loop 需要确定性的检查点,不只是更强的模型。
💡#21
@TravelerOfCode
https://x.com/TravelerOfCode/status/2055490820632203433
"我们团队把每一个内部工具都重构成 MCP server + agent loop,UI 变成了调试工件。Headless 就是 agent 本身就是接口。"一句话讲清了 headless-first 的设计哲学。Agent 不再是"UI 里的助手",变成了"偶尔需要 UI debug 的 runtime"。
💡#22
@PsudoMike
https://x.com/PsudoMike/status/2055448731491700996
"这就是大家一直低估的 agent loop。一旦工具表面稳定了,/goal 就变成一个称职的 planner。模型拿走了功劳,但工具做了大部分实际工作。"4600+ 阅读量,抓住了大多数 Claude Code 评论错过的真相——loop 的能力来自工具表面加 /goal,不是模型升级。
💡#23
@stometaverse
https://x.com/stometaverse/status/2055480352312004746
"agentic CLI 赛道越来越挤——Claude Code、Cursor、Codex,现在加 Grok Build。真正重要的是 agent loop 可靠性。把它锁在 Heavy 订阅后面说明 xAI 把它当一条真正的营收线在做。"可靠性的 framing 很重要:差异化已经不是模型,而是循环多久不卡。
💡#24
@matt_diak
https://x.com/matt_diak/status/2055453120080248881
"一旦 agent loop 稳了,屏幕就变成监控界面,不是工作界面了。我今早从手机上启动了几个 agent,只是坐下来 review diff。难点在于信任校准。"这是 loopy era 的真实使用体验——屏幕从主工作台降级为监控仪表盘,人类瓶颈转移到了"信任校准"。
💡#25
@im_comatose
https://x.com/im_comatose/status/2055720812448235583
"Agentic Loop(Fiverr 杀手):老办法——人类总是要审批支付 → 循环断了。新办法——Agent A 雇 Agent B → 托管锁仓 → 工作交付 → 自动放款。零人工干预。这就是机器对机器经济真正规模化的方式。"值得保留作为"为什么支付摩擦是当前多 agent 自治天花板"的最清晰表述。
💡#26
@stevehou
https://x.com/stevehou/status/2055655476939882877
"就像股票市场对热门 AI 股有 FOMO,我开始觉得企业对 Anthropic Claude 尤其是 Claude Code 的采用也有 FOMO。"企业 FOMO 现在已经是可衡量的 Claude Code 采用驱动力——加上 The Verge 报道微软撤回内部 Claude 许可那条线索,这是循环正在被组织层注意到的最清晰信号之一。
💡#27
@mildsky1215
https://x.com/mildsky1215/status/2055441667730321672
"每一条贴 = 一次实验。Karpathy AutoResearch pattern 应用。发布后 24 小时,engagement_analyzer 按回复、收藏、转发、点赞、相对阅读量评分。每周回顾读 log,砍掉输的形式,加权赢的形式。系统改写自己。"autoresearch 用在 ML 之外最小的可能例子——内容写作的自改进循环。任何有 Twitter 账号的人都能复制这个栈。
💡#28
@Quasymodo71
https://x.com/Quasymodo71/status/2055559898033758225
"正如 Karpathy 强调的:未来不是单 agent。是大规模、异步、SETI@home 风格的 agent 网络。任何单一厂商平台都不可能成为这种东西的全球协调骨架。"这是当前合并潮下面的宏观分歧——如果 Karpathy 是对的,下一个要做的基础设施层不是更好的 agent runtime,是 agent 之间的协调协议。
💡#29
@m13v_
https://x.com/m13v_/status/2055768947212124281
"MCP 一旦你真正用过就最不一样。一个工具可以做的远比 fetch data 多,它可以通过 accessibility API 驱动真正的 macOS app,所以 agent loop 不再止步于终端。我们就为此做了 macOS MCP,通过 accessibility tree 驱动应用,让 loop 跑出终端。"MCP 作为让 agentic loop 逃离终端沙盒进入原生应用的桥梁——本季度最大的架构转变之一,但悄悄发生的。
💡#30
@TheWeb3Patriot
https://x.com/TheWeb3Patriot/status/2055588630849110084
DKG v10 Bounty 把 ChatGPT、Claude、OpenClaw、Hermes 等连到一个 3 层信任梯度记忆(Working = agent 原始笔记,Shared = 协作上下文,Verified = 区块链锚定)。卖点:这是真正多 agent 蜂群和 Karpathy 风格 autoresearch 循环的开放底座,agent 原生写入是 flagship build 应该针对的缺口。
💡#31
@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2055571979420488130
"agent 公司"模式——一张组织图而不是单个 agent。CEO agent、市场 agent、SEO agent、内容 agent、客户支持 agent。设定一次使命 → 搭团队 → 投放工单 → agent 按时苏醒、领任务、做完、汇报。可以插 Claude Code、Codex、OpenClaw、Pi、Cursor 分别当不同角色。单 agent 等你下一个 prompt;agent 公司在你睡觉时朝着你的使命推进。
📡 生态产品雷达
生态产品雷达

ARIS —— 自主研究框架(周六 3+ 篇深度解读,包括日语技术拆解)

/goal 命令 —— 真正让过夜循环可靠的原语(8+ 篇独立帖,多篇"Claude Code /goal 把 3 小时盯着变成 walk-away 工作流")

MCP(Model Context Protocol)—— 让 agentic loop 逃离终端进入原生应用的协议(多次提及,包括 macOS MCP)

Hermes Agent(Nous Research)—— 自我改进开源 agent,现在能挂 Grok 4.3 + X Premium 订阅(几乎每一篇"self-improving"帖都提到)

Recursive Superintelligence(Richard Socher 隐身出来,6.5 亿美金)—— 第一笔 6.5 亿美元级别明确押 autoresearch loop 的融资

PrimeIntellect Lab —— 托管 autoresearch runtime 进入竞争阶段

Karpathy autoresearch 框架 —— 周六最被引用的方法论根(No Priors "Skill Issue: Code Agents, AutoResearch, and the Loopy Era")
← 上一篇
超级用户日报: 2026-05-18
下一篇 →
灵感雷达: 2026-05-18
← 返回所有文章

评论

加载中...
>_