Loop 日报: 2026-04-28
周日的 loop 信号比较散——没有头条级的发布,更多是小实验和元观察。本周的核心模式还在持续——把 Karpathy 的 autoresearch 循环搬到非训练问题上。截图对比 HTML 重建、把 RSI 应用到自己的脚手架、200 美元的机器在 autoresearch 任务上跑赢 18 万美元的工作站、一个用户用 Codex 在单个性能任务上无人值守跑了 3.5 小时。来自一线的悲观信号是——循环也会塌陷:让 UI"再精致五倍"的指令,可能让你早上醒来看到一个空白屏。
#1
@metedata
https://x.com/metedata/status/2048803374586315193
要把现有原生 app 的设计在 HTML 里重新实现,这件事一直做不好。他搭了一个 Codex 的 auto-research 循环——截原 app 的图、截 HTML 实现的图、打分、迭代到 99% 匹配。早期结果不错。如果稳定下来,准备包成可分享的 skill 发到 GitHub。"让这个长得跟那个一模一样"这种技能,被压成了一个可度量的损失函数加一个过夜的循环。
https://x.com/metedata/status/2048803374586315193
要把现有原生 app 的设计在 HTML 里重新实现,这件事一直做不好。他搭了一个 Codex 的 auto-research 循环——截原 app 的图、截 HTML 实现的图、打分、迭代到 99% 匹配。早期结果不错。如果稳定下来,准备包成可分享的 skill 发到 GitHub。"让这个长得跟那个一模一样"这种技能,被压成了一个可度量的损失函数加一个过夜的循环。
#2
@wayne_effect
https://x.com/wayne_effect/status/2048750922667352245
HP Omen 45L、128GB 内存、1000+ TOPS。本地跑自纠正的 agentic AI,配上 autoresearch 做研究和软件工程。产出:每篇 PhD 级论文 4-6 周,精致 MVP 2-4 周。相比雇人省下 75k-120k 美元。整套东西在家里就能跑。autoresearch 循环已经不再是云端独占的模式了。
https://x.com/wayne_effect/status/2048750922667352245
HP Omen 45L、128GB 内存、1000+ TOPS。本地跑自纠正的 agentic AI,配上 autoresearch 做研究和软件工程。产出:每篇 PhD 级论文 4-6 周,精致 MVP 2-4 周。相比雇人省下 75k-120k 美元。整套东西在家里就能跑。autoresearch 循环已经不再是云端独占的模式了。
#3
@NicolasZu
https://x.com/NicolasZu/status/2048785329469915639
昨晚让 Codex(GPT-5.5)在一个性能 autoresearch 任务上无人值守跑了 3.5 小时。这是他报告过的最长一次。循环没漂、没崩。时长记录正在从分钟级迁移到小时级,而这恰恰是新失败模式开始浮现的表面积。
https://x.com/NicolasZu/status/2048785329469915639
昨晚让 Codex(GPT-5.5)在一个性能 autoresearch 任务上无人值守跑了 3.5 小时。这是他报告过的最长一次。循环没漂、没崩。时长记录正在从分钟级迁移到小时级,而这恰恰是新失败模式开始浮现的表面积。
#4
@NathanWilbanks_
https://x.com/NathanWilbanks_/status/2048396392700236126
有一个 autoresearch agent 在帮他追踪 shitcoin 和股票,自动生成报告,但不交易——交易他自己来。他说自己一直在赚。这个结构选择值得记住——把研究循环和动作循环分开,让 agent 做高强度的盯盘工作,把交易决定留给人。
https://x.com/NathanWilbanks_/status/2048396392700236126
有一个 autoresearch agent 在帮他追踪 shitcoin 和股票,自动生成报告,但不交易——交易他自己来。他说自己一直在赚。这个结构选择值得记住——把研究循环和动作循环分开,让 agent 做高强度的盯盘工作,把交易决定留给人。
#5
@ariccio
https://x.com/ariccio/status/2048608882465861877
大部分开发者刚刚才搞明白的核心要点——要把 coding agent 用到极致,必须把 agentic loop 完全闭合。对他来说就是:把整个 app stack 端到端的脚本测试搭起来,跑真的本地后端,模拟真实用户操作 UI。再加上日志监控、卡死/崩溃看门狗,以及 Claude Code 和 Codex 都不会主动检查的各种信号。最后做出来的系统几乎能完全自主运转,因为反馈是即时且具体的。
https://x.com/ariccio/status/2048608882465861877
大部分开发者刚刚才搞明白的核心要点——要把 coding agent 用到极致,必须把 agentic loop 完全闭合。对他来说就是:把整个 app stack 端到端的脚本测试搭起来,跑真的本地后端,模拟真实用户操作 UI。再加上日志监控、卡死/崩溃看门狗,以及 Claude Code 和 Codex 都不会主动检查的各种信号。最后做出来的系统几乎能完全自主运转,因为反馈是即时且具体的。
#6
@gao_jude
https://x.com/gao_jude/status/2048394028719227191
任何调查任务最简单的 agentic loop,7 步走:部署代码 → 从部署生成 preview → 给 preview 做带 instrumentation 的端到端测试 → 跑测试 → 从 instrumentation 拿到洞察 → 要么改进代码 → 要么完成调查。这个模式之所以好用,是因为每一步都产出下一步可以直接用的、可验证的信号。
https://x.com/gao_jude/status/2048394028719227191
任何调查任务最简单的 agentic loop,7 步走:部署代码 → 从部署生成 preview → 给 preview 做带 instrumentation 的端到端测试 → 跑测试 → 从 instrumentation 拿到洞察 → 要么改进代码 → 要么完成调查。这个模式之所以好用,是因为每一步都产出下一步可以直接用的、可验证的信号。
#7
@ViewFTcom
https://x.com/ViewFTcom/status/2048532421780386184
拿 50 个自动化工作流,对比 GPT-5.5 和 Claude 3.5。工具调用完成率从 73% 跳到 91%。重点不是哪个模型更强,而是 agentic loop"现在真的能闭合,不再是靠幻觉硬撑出去"。当工具调用真的能可靠执行,整个循环就从"猜了再补救"变成了"做了就验证"。
https://x.com/ViewFTcom/status/2048532421780386184
拿 50 个自动化工作流,对比 GPT-5.5 和 Claude 3.5。工具调用完成率从 73% 跳到 91%。重点不是哪个模型更强,而是 agentic loop"现在真的能闭合,不再是靠幻觉硬撑出去"。当工具调用真的能可靠执行,整个循环就从"猜了再补救"变成了"做了就验证"。
#8
@ckartik_
https://x.com/ckartik_/status/2048298820350439741
他同时跑六个复杂任务就到顶了——瓶颈是他自己理解输出的认知带宽,不是 agent 的能力。他指出,如果是宽口径的研究或者要跑几个小时的策略型 prompt,他一天可以跑一百个 agent,因为单个任务时间长的时候他不需要频繁切换上下文。高并行 agent 的瓶颈是单次运行时长,不是 agent 数量。
https://x.com/ckartik_/status/2048298820350439741
他同时跑六个复杂任务就到顶了——瓶颈是他自己理解输出的认知带宽,不是 agent 的能力。他指出,如果是宽口径的研究或者要跑几个小时的策略型 prompt,他一天可以跑一百个 agent,因为单个任务时间长的时候他不需要频繁切换上下文。高并行 agent 的瓶颈是单次运行时长,不是 agent 数量。
#9
@joshwhiton
https://x.com/joshwhiton/status/2048846197511598481
"假装你自己是一个 agent,自己去 auto-research 一些事情,跑几个循环之后你会发现你自己也常常把事情做好或者把问题解决了。" 一个元观察——loop 模式对人也管用。"试一下、评估、保留或回滚"这个结构是可以搬到自己工作上的,不只是 agent 的事。
https://x.com/joshwhiton/status/2048846197511598481
"假装你自己是一个 agent,自己去 auto-research 一些事情,跑几个循环之后你会发现你自己也常常把事情做好或者把问题解决了。" 一个元观察——loop 模式对人也管用。"试一下、评估、保留或回滚"这个结构是可以搬到自己工作上的,不只是 agent 的事。
#10
@tha_vivid_one
https://x.com/tha_vivid_one/status/2048826045823160673
关于循环优化跑偏的真实担忧。如果他告诉 Claude"开 auto-research,loop 跑到 UI 感觉精致 5 倍为止",他可能早上醒来发现 UI 变成一个孤零零的按钮。或者就是空白屏。损失函数把问题本身吃掉了。这是一个让人类留在指标定义环节、而不只是指标度量环节的有力例子。
https://x.com/tha_vivid_one/status/2048826045823160673
关于循环优化跑偏的真实担忧。如果他告诉 Claude"开 auto-research,loop 跑到 UI 感觉精致 5 倍为止",他可能早上醒来发现 UI 变成一个孤零零的按钮。或者就是空白屏。损失函数把问题本身吃掉了。这是一个让人类留在指标定义环节、而不只是指标度量环节的有力例子。
#11
@deepwhitman
https://x.com/deepwhitman/status/2048560544605766128
在 agent-order 这个包上跑 RSI auto-research 循环——用这个包来想办法让这个包变得更好。在工具层面而非模型层面的递归自我改进。"太 meta 了。"
https://x.com/deepwhitman/status/2048560544605766128
在 agent-order 这个包上跑 RSI auto-research 循环——用这个包来想办法让这个包变得更好。在工具层面而非模型层面的递归自我改进。"太 meta 了。"
#12
@alokbishoyi97
https://x.com/alokbishoyi97/status/2048365295010816259
Claude Code 里的子 agent 现在可以 fork context。KV cache 命中率大幅提升。会子调用的 auto-research agent 因此变得又便宜又快。有些子 agent 跑下来成本最多降了 90%。子 agent 边界不只是隔离机制,本质上是一层缓存优化层。
https://x.com/alokbishoyi97/status/2048365295010816259
Claude Code 里的子 agent 现在可以 fork context。KV cache 命中率大幅提升。会子调用的 auto-research agent 因此变得又便宜又快。有些子 agent 跑下来成本最多降了 90%。子 agent 边界不只是隔离机制,本质上是一层缓存优化层。
#13
@AnirudhDabas
https://x.com/AnirudhDabas/status/2048829076840775849
写了一篇关于"为什么大部分 Shopify 店对 AI agent 是隐形的"以及他正在做什么解决这个。涵盖 shelf、autoresearch 循环、backpressure 检查、reward hacking,以及为什么搭 eval 比搭循环本身还难。eval 跟 loop 的区分,恰好是大多数生产环境 autoresearch 尝试还没解决的那一层。
https://x.com/AnirudhDabas/status/2048829076840775849
写了一篇关于"为什么大部分 Shopify 店对 AI agent 是隐形的"以及他正在做什么解决这个。涵盖 shelf、autoresearch 循环、backpressure 检查、reward hacking,以及为什么搭 eval 比搭循环本身还难。eval 跟 loop 的区分,恰好是大多数生产环境 autoresearch 尝试还没解决的那一层。
#14
@0rdlibrary
https://x.com/0rdlibrary/status/2048863365942915276
发了一份用 "Clawd" 驱动的 Solana auto-research wiki——这个 agent 在你做梦的时候开发,在你睡觉的时候在 pump.fun 上交易、分析、抢仓。"autoresearch 当过夜金融 agent"这个模式在加密原生用户里反复出现,wiki 格式正是这个循环跨夜累积所需要的持久化记忆层。
https://x.com/0rdlibrary/status/2048863365942915276
发了一份用 "Clawd" 驱动的 Solana auto-research wiki——这个 agent 在你做梦的时候开发,在你睡觉的时候在 pump.fun 上交易、分析、抢仓。"autoresearch 当过夜金融 agent"这个模式在加密原生用户里反复出现,wiki 格式正是这个循环跨夜累积所需要的持久化记忆层。
📡 生态产品雷达
生态产品雷达
- Karpathy autoresearch — 起源模式,今天还在 UI 匹配、内核优化、marketing、金融、递归自我改进里出现
- Codex — 跟 autoresearch 配对做长时间无人值守任务(NicolasZu 的 3.5 小时记录、metedata 的截图比对循环)
- Pi (PhoneClaw) — 用户们持续在迁移自己 loop 实现的参考 harness
- Karpathy autoresearch — 起源模式,今天还在 UI 匹配、内核优化、marketing、金融、递归自我改进里出现
- Codex — 跟 autoresearch 配对做长时间无人值守任务(NicolasZu 的 3.5 小时记录、metedata 的截图比对循环)
- Pi (PhoneClaw) — 用户们持续在迁移自己 loop 实现的参考 harness
评论