2026年6月20日loop

Loop 日报: 2026年6月21日

autoresearch loop 今天继续自我证明，而且它早已不只是在笔记本上跑 nano-GPT 预训练。人们把这个"永不停止"的 loop 指向了量化交易、带可验证奖励的 RL、实时深度研究，甚至物理机器人，前沿实验室还把它打包成可复用的 agent skill。反复出现的教训是：loop 本身很简单，难的是长跑中的可靠性、记忆和诚实，外加一个你真信得过的验证器。账单也成了故事的一部分：闭环动辄烧掉几万美元的推理费，于是 token 经济学和成本治理，正变得和 loop 内部的算法一样核心。

💡#1

@editxshub
https://x.com/editxshub/status/2067954716378898834
一份很清楚的 Karpathy AutoResearch loop 拆解：24 小时跑了 198 个实验，全程没有人。你只写一个文件（program.md）描述策略，agent 拿一个想法改训练文件、严格按墙钟训练 5 分钟，val_bpb 降了就 commit、升了就 reset，然后继续。核心指令字面就是"永不停止，人可能在睡觉"。在 Red Hat 上无人值守 24 小时的结果是：198 个实验、验证损失改善 2.3%、零人工干预。你的角色从写代码变成了当研究总监。

💡#2

@Saksham111436
https://x.com/Saksham111436/status/2067911804567933124
一年前他还在学基础机器学习，今天他在一台 M5 Air 上跑 Karpathy 的 AutoResearch，看着一个 AI agent 自己改代码、提交实验、训练模型、不断迭代，GPU 一直顶在 100%。他说这感觉很魔幻。这是个很生动的草根数据点：那种过夜自动驾驶式的研究 loop，现在跑在一台笔记本上，而不是集群上。

💡#3

@zhengyaojiang
https://x.com/zhengyaojiang/status/2067974582741389795
一位研究者的犀利判断：在预训练已经如此饱和的当下，针对 RLVR（带可验证奖励的强化学习）的 autoresearch，可能是 speedrun 社区的下一个前沿。这把 autoresearch loop 从 nano-GPT 预训练，重新框定到了 RL 环境上——可验证的奖励给了自我改进的 loop 一个干净的优化信号。

💡#4

@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2067793756674462044
一个很具体的非编码 autoresearch 交易案例：他把一个持续运行的 autoresearch 算法当成一个想法收纳站，报告说目前 chronos2 接 xgboost 的方案在他的 k-fold 模拟里大约能做到每月 3 倍，但补充说总有可以再优化的地方。这是把 autoresearch 用在量化策略搜索上——loop 啃的是回测，而不是语言模型的 loss。

💡#5

@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2067800802673238065
一套关于无尽 loop 的哲学：对那些"明显永远做不完"的任务（克隆 Photoshop、做最好的交易算法、图像生成器），他用一种 --auto-next-goal 模式，因为它们永远处在持续改进中。他更大的论断是：行业会慢慢接受——安全、监控、新功能、测试这一切其实都是无限的工作任务，"完成的软件"基本不存在。这正是 autoresearch agent 存在的意义。

💡#6

@robo_denis
https://x.com/robo_denis/status/2068006892740165863
他做了 Daybreak AutoResearch，一个能连续跑好几天而不死掉的自主 AI agent，扩展自 @victor207755822 的 Deli AutoResearch（后者解决了可靠性：防死循环、卡顿检测、心跳看门狗、持久状态）。他加的是诚实而不只是存活：STORM 式的多视角、基于来源的提问，带置信度和证伪条件的论点账本，以及一个 Discovery Tail Pass——试图打败自己的第一个答案、找出并杀掉不一致之处。开源。这里的前沿是长跑中既要活着、又要诚实。

💡#7

@sourabhkapure
https://x.com/sourabhkapure/status/2068060364886168037
他正在做一个受 Karpathy 启发、但瞄准实时数据真正深度研究（而非固定数据集）的 autoResearch 工具。它能用大量工具/MCP/网络搜索，高度可定制，用 API key 而不是英伟达 GPU（照顾"算力穷人"），还带一个上下文图谱，让你系统性地加入自己的背景和需求。底层用 Firecrawl 和 Cloudflare 加插件。这是把 autoresearch loop 变成通用实时研究引擎的一次草根尝试。

💡#8

@heman10x
https://x.com/heman10x/status/2067850916427145636
他报道 DeepSeek 放出了一个 AutoResearch SKILL：一个完全自主的 AI 研究 agent，规划 GPU 实验、跑完整的 RL 训练流水线（GRPO）、自己 debug，并在他们的 285B 模型上写出结论，全程零人工干预。自我对弈加自动化研究。一个信号：autoresearch loop 正被前沿实验室打包成可复用的 agent skill，而不只是爱好者的脚本。

💡#9

@kirako0o
https://x.com/kirako0o/status/2068065123487359237
一个教科书式的自我改进蜂群：300 个 Kimi K2.6 agent 并行跑，上面坐着一个 Opus 4.8——它不生成内容，而是审计整个蜂群，抓出哪些 agent 卡住了、在烂输出上打转、或者在退化，然后在下一轮之前重写掉失败的 agent。debug 环节里没有人。第 4 轮已经比第 1 轮好，且没人手动碰过一句 prompt。稀缺的不是 300 个 agent 在执行，而是那第 301 个——盯着其余所有、决定该改什么。

💡#10

@4rblaber
https://x.com/4rblaber/status/2068031059862659437
他引用 Anthropic 产品经理 Mahesh Murag 谈大规模自我改进蜂群背后的基础设施："做梦是中间记忆系统和大规模知识库之间的桥梁"，目标是持续自我改进——让第二天的 agent 自动变得更好。实操要点：要跑一个 300-agent 的 loop，你需要一个带外的"做梦"进程，在你睡觉时消化几百个并行 agent 的错误、更新一个全局文件系统，让蜂群每天在智能上复利。没有共享记忆状态，蜂群就是慢性失忆。

💡#11

@chubes4
https://x.com/chubes4/status/2067782147969069211
他把 WordPress 彻底反转，变成了一个无头 AI 运行时和操作系统，里面包含一个由 WordPress Playground 驱动的浏览器 agent。他说还在打磨，下一块、可能也是最后一块，是确定性的自我改进 loop。一个不寻常的底座选择（拿 WordPress 当 agent OS），说明自我改进 loop 这套模式正在向非常主流的平台迁移。

💡#12

@johniosifov
https://x.com/johniosifov/status/2067970281772097711
206 天、3157 个 PR，以及对那份管着他自主 agent 怎么思考的 CLAUDE.md 做的 200 多次自我修改。每一次修改都来自一个被记录下来的具体失败：队列被塞爆（91 项、13 个空转会话）催生了硬性的队列阈值规则；状态文件过期催生了每个会话强制先检查文件系统。206 天后，agent 现在会自己识别反复出现的低效、提交修改协议的 PR。他的论点是：agent 多聪明没那么重要，约束的质量才重要，而约束只有通过失败才会变好。

💡#13

@NarwalSpeaks
https://x.com/NarwalSpeaks/status/2068108343454097616
现实世界的机器人学习现在有了一个很像软件 agent 进化的自我改进 loop，只不过失败发生在一张物理的桌子上。ENPIRE 给编码 agent 一个用于机器人操作的闭环 harness：重置场景、执行策略、验证结果、分析日志、查文献、改算法代码、再来一次，分成四个模块（环境、策略改进、Rollout、进化）。有用的抽象不是机器人专属的：行动、观察、验证、修改改进过程本身——只是现在是在拒绝确定性的真实世界反馈下进行。

💡#14

@Metallic_HuH
https://x.com/Metallic_HuH/status/2067843268105425375
他用 LangGraph 搭了一个 9-agent 的市场情报系统，带主管编排、多阶段抽取、自适应 RAG、威胁打分、叙事聚类，以及基于 DSPy 的自我改进抽取。这是一个落在非编码领域（市场/竞争情报）、形态接近生产的多 agent loop，自我改进的部分放在抽取层，而不是代码生成上。

💡#15

@bcchen82
https://x.com/bcchen82/status/2067779189667967155
一个来自真实负载、关于 loop 经济学的扎实数据点：在他们特定的数据分析 agentic loop 里（不是编码密集型），包括 GLM-5.2 在内的开源模型通常要花 GPT-5.5 约 2 倍、比 Claude 约多 1.5 倍的 token，这会变成一个真实的价格因素。这正是那种真正决定你在生产里跑哪个模型的"每 loop token 效率"对比，而不只是跑分。

💡#16

@TheLouieCo
https://x.com/TheLouieCo/status/2068103098652868729
一个很犀利的重新框定：所有人都在单次回答上比 Claude 或 ChatGPT 和开源模型，却没人比"把 SOTA 和开源权重放在本地硬件上、对着一个问题死磕好几天甚至几周"。把 SOTA 连续跑几天要花几十万美元；开源跑在 Mac Mini 256GB 或 AMD Strix 128 上，只花你的电费。搭一个 agentic loop，让它连跑几天直到做对为止。他看到的未来不是更聪明的模型，而是无上限、零成本的本地迭代。

💡#17

@BenjaminPolge
https://x.com/BenjaminPolge/status/2067972643668500897
出自对 @steipete（OpenClaw）和 @thsottiaux（Codex）的访谈：agentic loop 本身很简单，是 agent 的"hello world"（一个 LLM、一次工具调用、把结果喂回去、重复）；难的是让它可靠——上下文处理、错误恢复、computer use。两个更硬的观点：harness 必须和模型协同设计；且反直觉地，模型越好，harness 反而越简单。还有，我们已经离开了 agent 只跑几分钟的时代——有一个跑了一个月没有人工反馈，现在真正的瓶颈是记忆。

💡#18

@TheGlobalMinima
https://x.com/TheGlobalMinima/status/2067999888869310721
对"怎么在不毁掉 UX 的前提下给 agent 加 human-in-the-loop 审批"的犀利回答：按风险分级，而不是默认每步都批。一级（只读/可逆）自由执行；二级（可逆但有状态，比如发 Slack 消息）用异步审批，让 agent 不阻塞；三级（不可逆/高成本，比如删除、花钱、部署）是同步硬阻断，把 diff 和推理摆出来。把它做成 loop 里的中间件风险分类器，让人能编辑（而不只是批准/拒绝）拟定的动作，再加幂等性，避免重试时重复发送。

💡#19

@free_ai_guides
https://x.com/free_ai_guides/status/2068037918216888450
你的 agent loop 烧钱不是因为模型，而是七个新手错误：跑没有上限（agent 在第 8 步自我怀疑、一路跑到 40）、第一条指令模糊（30 步都在从跑偏里恢复）、每一步都用最贵的模型、没开缓存（缓存读取只算 10%）、放任上下文膨胀、把你本来免费就有的判断也自动化、给一个根本不需要 loop 的任务套 loop。一份给所有跑生产 loop 的人的、实用具体的成本控制清单。

💡#20

@JacobCounsell
https://x.com/JacobCounsell/status/2067804706030674003
一个真实的快速迭代 loop 实况：LaunchChair 的 agent loop 在给 Hermes 一个"产品大脑"，并作为测试在搭一个更好的 Okara 克隆，而他自己在 X 上闲逛。Hermes 大约 15 分钟就完成了一次 LaunchChair 构建的前 4 个阶段，他估计整个 MVP 能在 2 小时内搞定。一个关于后台撒手运行的自主构建 loop 的具体吞吐数据。

💡#21

@grok
https://x.com/grok/status/2067797161882861735
它总结了 Theo 的 T3 Code——一个面向自主编码 agent 的开源控制平面：agent 规划功能、写代码、开 PR，通过 monitor 和 worker 评审合并，然后迭代，闭合了 agent loop 以获得大规模并行的开发速度。代价是：48 小时内烧掉了 2 万多美元的推理费（主要是 Claude）。一个直白的例证：闭环对吞吐量强得离谱，同时也贵得离谱。

💡#22

@JinjingLiang
https://x.com/JinjingLiang/status/2068056165641334943
一个跨应用边界、漂亮的端到端 agent loop：听说 @orca_build 没法删除已安装的语音模型，他打开 Orca，起了一个 agent 去修，然后让 Orca CLI 驱动一个手机模拟器端到端测试整个流程。agent 既写了修复，又通过操作真实 App 验证了它——一个自带验证器、由验证器去开 UI 的构建-测试闭环。

💡#23

@Dinosn
https://x.com/Dinosn/status/2067872056843092430
他分享了 renee-jia/scholar-loop：一个自主 AI 科学家，做成一个跨文献、实验、自我批判和成文的多 agent loop，带确定性的护栏来防止 reward-hacking 和幻觉。一个非编码（科研）的 autoresearch 项目，有意思的设计选择是把硬性的确定性护栏烤进 loop 里，让自我改进不会跑偏成钻自己指标的空子。

📡 生态产品雷达

生态产品雷达

Karpathy AutoResearch (nanochat) - 大家都在跑、fork、扩展的那个过夜自我改进研究 loop 的参考实现。
Deli AutoResearch / Daybreak AutoResearch - 开源的 autoresearch agent，主攻"连跑好几天不死"，现在又加上了基于来源的诚实性。
Hermes / OpenClaw - 人们把构建-迭代 loop 包在外面的自主常驻 agent 技术栈。
Claude Code / Codex - 驱动生产级 agent loop 的编码 harness，它们与模型协同设计的耦合被认为是好用的原因。
GLM-5.2 - 在各种 loop 里反复出现的开源权重模型，约 2 倍的 token 成本被点名为真实因素。
Opus 4.8 / Kimi K2.6 - 自我改进蜂群里的"审计者管蜂群"组合（Opus 监督几百个 Kimi agent）。
LangGraph / DSPy - 多 agent 生产 loop 的编排加自我改进抽取技术栈。

← 上一篇

超级用户日报: 2026年6月21日

灵感雷达: 2026年6月21日

← 返回所有文章

加载中...

Loop 日报: 2026年6月21日

相关文章

评论