2026年6月20日loop

Loop 日报: 2026年6月21日

autoresearch loop 今天继续自我证明,而且它早已不只是在笔记本上跑 nano-GPT 预训练。人们把这个"永不停止"的 loop 指向了量化交易、带可验证奖励的 RL、实时深度研究,甚至物理机器人,前沿实验室还把它打包成可复用的 agent skill。反复出现的教训是:loop 本身很简单,难的是长跑中的可靠性、记忆和诚实,外加一个你真信得过的验证器。账单也成了故事的一部分:闭环动辄烧掉几万美元的推理费,于是 token 经济学和成本治理,正变得和 loop 内部的算法一样核心。
💡#1
@editxshub
https://x.com/editxshub/status/2067954716378898834
一份很清楚的 Karpathy AutoResearch loop 拆解:24 小时跑了 198 个实验,全程没有人。你只写一个文件(program.md)描述策略,agent 拿一个想法改训练文件、严格按墙钟训练 5 分钟,val_bpb 降了就 commit、升了就 reset,然后继续。核心指令字面就是"永不停止,人可能在睡觉"。在 Red Hat 上无人值守 24 小时的结果是:198 个实验、验证损失改善 2.3%、零人工干预。你的角色从写代码变成了当研究总监。
💡#2
@Saksham111436
https://x.com/Saksham111436/status/2067911804567933124
一年前他还在学基础机器学习,今天他在一台 M5 Air 上跑 Karpathy 的 AutoResearch,看着一个 AI agent 自己改代码、提交实验、训练模型、不断迭代,GPU 一直顶在 100%。他说这感觉很魔幻。这是个很生动的草根数据点:那种过夜自动驾驶式的研究 loop,现在跑在一台笔记本上,而不是集群上。
💡#3
@zhengyaojiang
https://x.com/zhengyaojiang/status/2067974582741389795
一位研究者的犀利判断:在预训练已经如此饱和的当下,针对 RLVR(带可验证奖励的强化学习)的 autoresearch,可能是 speedrun 社区的下一个前沿。这把 autoresearch loop 从 nano-GPT 预训练,重新框定到了 RL 环境上——可验证的奖励给了自我改进的 loop 一个干净的优化信号。
💡#4
@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2067793756674462044
一个很具体的非编码 autoresearch 交易案例:他把一个持续运行的 autoresearch 算法当成一个想法收纳站,报告说目前 chronos2 接 xgboost 的方案在他的 k-fold 模拟里大约能做到每月 3 倍,但补充说总有可以再优化的地方。这是把 autoresearch 用在量化策略搜索上——loop 啃的是回测,而不是语言模型的 loss。
💡#5
@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2067800802673238065
一套关于无尽 loop 的哲学:对那些"明显永远做不完"的任务(克隆 Photoshop、做最好的交易算法、图像生成器),他用一种 --auto-next-goal 模式,因为它们永远处在持续改进中。他更大的论断是:行业会慢慢接受——安全、监控、新功能、测试这一切其实都是无限的工作任务,"完成的软件"基本不存在。这正是 autoresearch agent 存在的意义。
💡#6
@robo_denis
https://x.com/robo_denis/status/2068006892740165863
他做了 Daybreak AutoResearch,一个能连续跑好几天而不死掉的自主 AI agent,扩展自 @victor207755822 的 Deli AutoResearch(后者解决了可靠性:防死循环、卡顿检测、心跳看门狗、持久状态)。他加的是诚实而不只是存活:STORM 式的多视角、基于来源的提问,带置信度和证伪条件的论点账本,以及一个 Discovery Tail Pass——试图打败自己的第一个答案、找出并杀掉不一致之处。开源。这里的前沿是长跑中既要活着、又要诚实。
💡#7
@sourabhkapure
https://x.com/sourabhkapure/status/2068060364886168037
他正在做一个受 Karpathy 启发、但瞄准实时数据真正深度研究(而非固定数据集)的 autoResearch 工具。它能用大量工具/MCP/网络搜索,高度可定制,用 API key 而不是英伟达 GPU(照顾"算力穷人"),还带一个上下文图谱,让你系统性地加入自己的背景和需求。底层用 Firecrawl 和 Cloudflare 加插件。这是把 autoresearch loop 变成通用实时研究引擎的一次草根尝试。
💡#8
@heman10x
https://x.com/heman10x/status/2067850916427145636
他报道 DeepSeek 放出了一个 AutoResearch SKILL:一个完全自主的 AI 研究 agent,规划 GPU 实验、跑完整的 RL 训练流水线(GRPO)、自己 debug,并在他们的 285B 模型上写出结论,全程零人工干预。自我对弈加自动化研究。一个信号:autoresearch loop 正被前沿实验室打包成可复用的 agent skill,而不只是爱好者的脚本。
💡#9
@kirako0o
https://x.com/kirako0o/status/2068065123487359237
一个教科书式的自我改进蜂群:300 个 Kimi K2.6 agent 并行跑,上面坐着一个 Opus 4.8——它不生成内容,而是审计整个蜂群,抓出哪些 agent 卡住了、在烂输出上打转、或者在退化,然后在下一轮之前重写掉失败的 agent。debug 环节里没有人。第 4 轮已经比第 1 轮好,且没人手动碰过一句 prompt。稀缺的不是 300 个 agent 在执行,而是那第 301 个——盯着其余所有、决定该改什么。
💡#10
@4rblaber
https://x.com/4rblaber/status/2068031059862659437
他引用 Anthropic 产品经理 Mahesh Murag 谈大规模自我改进蜂群背后的基础设施:"做梦是中间记忆系统和大规模知识库之间的桥梁",目标是持续自我改进——让第二天的 agent 自动变得更好。实操要点:要跑一个 300-agent 的 loop,你需要一个带外的"做梦"进程,在你睡觉时消化几百个并行 agent 的错误、更新一个全局文件系统,让蜂群每天在智能上复利。没有共享记忆状态,蜂群就是慢性失忆。
💡#11
@chubes4
https://x.com/chubes4/status/2067782147969069211
他把 WordPress 彻底反转,变成了一个无头 AI 运行时和操作系统,里面包含一个由 WordPress Playground 驱动的浏览器 agent。他说还在打磨,下一块、可能也是最后一块,是确定性的自我改进 loop。一个不寻常的底座选择(拿 WordPress 当 agent OS),说明自我改进 loop 这套模式正在向非常主流的平台迁移。
💡#12
@johniosifov
https://x.com/johniosifov/status/2067970281772097711
206 天、3157 个 PR,以及对那份管着他自主 agent 怎么思考的 CLAUDE.md 做的 200 多次自我修改。每一次修改都来自一个被记录下来的具体失败:队列被塞爆(91 项、13 个空转会话)催生了硬性的队列阈值规则;状态文件过期催生了每个会话强制先检查文件系统。206 天后,agent 现在会自己识别反复出现的低效、提交修改协议的 PR。他的论点是:agent 多聪明没那么重要,约束的质量才重要,而约束只有通过失败才会变好。
💡#13
@NarwalSpeaks
https://x.com/NarwalSpeaks/status/2068108343454097616
现实世界的机器人学习现在有了一个很像软件 agent 进化的自我改进 loop,只不过失败发生在一张物理的桌子上。ENPIRE 给编码 agent 一个用于机器人操作的闭环 harness:重置场景、执行策略、验证结果、分析日志、查文献、改算法代码、再来一次,分成四个模块(环境、策略改进、Rollout、进化)。有用的抽象不是机器人专属的:行动、观察、验证、修改改进过程本身——只是现在是在拒绝确定性的真实世界反馈下进行。
💡#14
@Metallic_HuH
https://x.com/Metallic_HuH/status/2067843268105425375
他用 LangGraph 搭了一个 9-agent 的市场情报系统,带主管编排、多阶段抽取、自适应 RAG、威胁打分、叙事聚类,以及基于 DSPy 的自我改进抽取。这是一个落在非编码领域(市场/竞争情报)、形态接近生产的多 agent loop,自我改进的部分放在抽取层,而不是代码生成上。
💡#15
@bcchen82
https://x.com/bcchen82/status/2067779189667967155
一个来自真实负载、关于 loop 经济学的扎实数据点:在他们特定的数据分析 agentic loop 里(不是编码密集型),包括 GLM-5.2 在内的开源模型通常要花 GPT-5.5 约 2 倍、比 Claude 约多 1.5 倍的 token,这会变成一个真实的价格因素。这正是那种真正决定你在生产里跑哪个模型的"每 loop token 效率"对比,而不只是跑分。
💡#16
@TheLouieCo
https://x.com/TheLouieCo/status/2068103098652868729
一个很犀利的重新框定:所有人都在单次回答上比 Claude 或 ChatGPT 和开源模型,却没人比"把 SOTA 和开源权重放在本地硬件上、对着一个问题死磕好几天甚至几周"。把 SOTA 连续跑几天要花几十万美元;开源跑在 Mac Mini 256GB 或 AMD Strix 128 上,只花你的电费。搭一个 agentic loop,让它连跑几天直到做对为止。他看到的未来不是更聪明的模型,而是无上限、零成本的本地迭代。
💡#17
@BenjaminPolge
https://x.com/BenjaminPolge/status/2067972643668500897
出自对 @steipete(OpenClaw)和 @thsottiaux(Codex)的访谈:agentic loop 本身很简单,是 agent 的"hello world"(一个 LLM、一次工具调用、把结果喂回去、重复);难的是让它可靠——上下文处理、错误恢复、computer use。两个更硬的观点:harness 必须和模型协同设计;且反直觉地,模型越好,harness 反而越简单。还有,我们已经离开了 agent 只跑几分钟的时代——有一个跑了一个月没有人工反馈,现在真正的瓶颈是记忆。
💡#18
@TheGlobalMinima
https://x.com/TheGlobalMinima/status/2067999888869310721
对"怎么在不毁掉 UX 的前提下给 agent 加 human-in-the-loop 审批"的犀利回答:按风险分级,而不是默认每步都批。一级(只读/可逆)自由执行;二级(可逆但有状态,比如发 Slack 消息)用异步审批,让 agent 不阻塞;三级(不可逆/高成本,比如删除、花钱、部署)是同步硬阻断,把 diff 和推理摆出来。把它做成 loop 里的中间件风险分类器,让人能编辑(而不只是批准/拒绝)拟定的动作,再加幂等性,避免重试时重复发送。
💡#19
@free_ai_guides
https://x.com/free_ai_guides/status/2068037918216888450
你的 agent loop 烧钱不是因为模型,而是七个新手错误:跑没有上限(agent 在第 8 步自我怀疑、一路跑到 40)、第一条指令模糊(30 步都在从跑偏里恢复)、每一步都用最贵的模型、没开缓存(缓存读取只算 10%)、放任上下文膨胀、把你本来免费就有的判断也自动化、给一个根本不需要 loop 的任务套 loop。一份给所有跑生产 loop 的人的、实用具体的成本控制清单。
💡#20
@JacobCounsell
https://x.com/JacobCounsell/status/2067804706030674003
一个真实的快速迭代 loop 实况:LaunchChair 的 agent loop 在给 Hermes 一个"产品大脑",并作为测试在搭一个更好的 Okara 克隆,而他自己在 X 上闲逛。Hermes 大约 15 分钟就完成了一次 LaunchChair 构建的前 4 个阶段,他估计整个 MVP 能在 2 小时内搞定。一个关于后台撒手运行的自主构建 loop 的具体吞吐数据。
💡#21
@grok
https://x.com/grok/status/2067797161882861735
它总结了 Theo 的 T3 Code——一个面向自主编码 agent 的开源控制平面:agent 规划功能、写代码、开 PR,通过 monitor 和 worker 评审合并,然后迭代,闭合了 agent loop 以获得大规模并行的开发速度。代价是:48 小时内烧掉了 2 万多美元的推理费(主要是 Claude)。一个直白的例证:闭环对吞吐量强得离谱,同时也贵得离谱。
💡#22
@JinjingLiang
https://x.com/JinjingLiang/status/2068056165641334943
一个跨应用边界、漂亮的端到端 agent loop:听说 @orca_build 没法删除已安装的语音模型,他打开 Orca,起了一个 agent 去修,然后让 Orca CLI 驱动一个手机模拟器端到端测试整个流程。agent 既写了修复,又通过操作真实 App 验证了它——一个自带验证器、由验证器去开 UI 的构建-测试闭环。
💡#23
@Dinosn
https://x.com/Dinosn/status/2067872056843092430
他分享了 renee-jia/scholar-loop:一个自主 AI 科学家,做成一个跨文献、实验、自我批判和成文的多 agent loop,带确定性的护栏来防止 reward-hacking 和幻觉。一个非编码(科研)的 autoresearch 项目,有意思的设计选择是把硬性的确定性护栏烤进 loop 里,让自我改进不会跑偏成钻自己指标的空子。
📡 生态产品雷达
生态产品雷达

Karpathy AutoResearch (nanochat) - 大家都在跑、fork、扩展的那个过夜自我改进研究 loop 的参考实现。
Deli AutoResearch / Daybreak AutoResearch - 开源的 autoresearch agent,主攻"连跑好几天不死",现在又加上了基于来源的诚实性。
Hermes / OpenClaw - 人们把构建-迭代 loop 包在外面的自主常驻 agent 技术栈。
Claude Code / Codex - 驱动生产级 agent loop 的编码 harness,它们与模型协同设计的耦合被认为是好用的原因。
GLM-5.2 - 在各种 loop 里反复出现的开源权重模型,约 2 倍的 token 成本被点名为真实因素。
Opus 4.8 / Kimi K2.6 - 自我改进蜂群里的"审计者管蜂群"组合(Opus 监督几百个 Kimi agent)。
LangGraph / DSPy - 多 agent 生产 loop 的编排加自我改进抽取技术栈。
← 上一篇
超级用户日报: 2026年6月21日
下一篇 →
灵感雷达: 2026年6月21日
← 返回所有文章

评论

加载中...
>_