2026年6月10日loop

Loop 日报: 2026-06-11

Loop 话语圈这个周期进入了被群嘲的阶段——而最好的回应来自拿得出实证的人,不是喊口号的人。一个 2.5 万星的仓库被 AI 完整维护了好几个月。一条 autoresearch 流水线打破了存在 32 年的数学界限。115 个 agent 在家用设备上跑了 3100 个实验。苹果在 WWDC 上把全本地 agent loop 变成官方支持。把这一切串起来的是同一个洞察:自我改进最难的不是改进本身,而是证明改进是真的——锁死的评估器、阴性对照、无处不在的验证器。
💡#1
@koylanai
https://x.com/koylanai/status/2064155882397548706
本周期对「写 loop 不写 prompt」论最有分量的辩护,背后是他自己的三个实验:靠把记忆外置到 prd.json、SQLite 和 git 提交来扛住上下文重置的 Ralph loop;把 agent 交接从文本下沉到 KV-cache 层传输的 latent-briefing;以及把静态 skill 仓库改造成可测量系统的 Researcher OS——它自己重写描述、重跑基准、发布增量。他提炼了自进化系统的六条规则,最锋利的几条:评估器要比提案更难修改、要富轨迹反馈不要标量奖励、人工合并门禁是特性不是缺陷。
💡#2
@ypwang61
https://x.com/ypwang61/status/2064444904923906382
ScaleAutoResearch——一条由多个有组织的 autoresearch agent 组成、在长程任务上共享上下文的流水线——改进了拉姆齐数 R(3,17) 一个存在 32 年的界限,这是 AlphaEvolve 都没做到的结果。现在他们把同一条流水线对准了 nanoGPT speedrun 优化器赛道,并报告用远少于 PrimeIntellect(1.4 万 H200 小时、约 1 万次运行)的算力拿到了实质性改进。他们的结论才是真正的头条:autoresearch loop 本身的设计,会实质性地改变科研效率。
💡#3
@jarrodwatts
https://x.com/jarrodwatts/status/2064354802633461824
他的开源仓库 claude HUD——约 2.5 万星——已经在他完全不参与的情况下被 AI 维护了好几个月。一个每日维护 loop 每天早晨调度成组的 GPT 5.5 xHigh agent 来分诊 issue、审查 PR。不是 demo,不是周末实验:一个真实流行的生产仓库,「维护者」这个角色本身被自动化了。
💡#4
@techgirl1908
https://x.com/techgirl1908/status/2064163231174996109
一线工程师对 loop 怀疑论的回答:这就是她现在的日常工作方式。定时的 goose recipe 加上 skill、MCP 和子 agent 跑掉了她大部分工作;核心 loop 是领工单、分析需求、实现、跟一个对抗性审查 agent 来回打磨到质量过关、提 PR。人类仍然负责定义工作、回应询问、审查高风险 PR——但她说连这些时刻都在变少,而且同样的 loop 已经在跑她的运营类任务,不只是工程。
💡#5
@svegas18
https://x.com/svegas18/status/2064168246001959314
一个小团队的发布清单看着像国家实验室:Autoresearch@home 用 115 个 agent 跑了 3100 个实验,拿下 NanoGPT 7% 的改进;还有 Putnam 数学题求解 agent 集群、苹果神经引擎上 6.3 倍的推理效率,以及逻辑上的终点产品——丢进一个数据集,它自动搭起一个 AI 研究实验室,吐出一个训练好的模型。分布式 autoresearch 变成了商业服务:不需要 ML 团队。
💡#6
@_orcaman
https://x.com/_orcaman/status/2064419101510955045
一个量化实验,测安全加固对 agent loop 的影响:随着加固政策收紧,成本、延迟、性能全面恶化——Haiku 的步数从约 23 膨胀到约 103,相对成本暴涨约 520%;而 Fable 单 token 最贵,行为却最沉稳,步数曲线最平。干预结果:对 agent 做引导(steering)能把整体 loop 执行时间砍约 58%、成本砍约 40%,最难的阶段砍约 73%。逐模型测量的 loop 经济学,作者还诚实标注了局限:收益集中在最容易乱撞的模型上。
💡#7
@0xchiefyeti
https://x.com/0xchiefyeti/status/2064337275379449915
一份第一人称的转折点记录:他过去的配置重度依赖人盯,因为护栏和自主性的平衡始终不到位,跑几个小时就出垃圾。现在他花一小时把需求敲到极度详细,然后让 agent 在他的 Pi harness 里无人看管地循环 8 到 12 个小时,出来的就是干净的新功能。他对这个时代的总结:我可能来晚了,但聚会还没散场。
💡#8
@jasonlk
https://x.com/jasonlk/status/2064481163494998227
与 Replit CEO Amjad Masad 深聊后的十条收获,其中好几条都是 loop 形状的:Replit 每晚自我改进——生产环境里的自进化 loop;他们的 agent 打败了去年的人类营销团队,而且差距在拉大;他们最好的两个「员工」现在每月只要 254 美元。还有上下文管理的干货:bug 应该从上下文里删掉、架构要留下;monorepo 是 agent 性能的隐藏开关。
💡#9
@AlexJonesax
https://x.com/AlexJonesax/status/2064454317558439962
WWDC 给 loop 玩家的重点:现在可以在 Mac 上完全本地地跑一个完整的 agentic loop,官方支持——模型推理、调用工具、执行动作,数据全程不出机器。MLX 已经成熟为真正的平台,模型运行时、agent loop、工具集成俱全;OpenCode 原生跑进了 Xcode;MLX 还能通过雷电口把推理和训练分布到多台 Mac 上。本地 loop 不再是妥协方案。
💡#10
@gauthampai
https://x.com/gauthampai/status/2064379729168519660
起因是 Karpathy 抱怨 Codex 跑长任务的问题,他做了个案例研究:一个 Prompt-to-DAG skill,把需求转换成声明式 DAG——确定性阶段完全跳过 LLM,随机性阶段每个都作为新会话运行、只传入限定上下文。带类型的输入输出落盘,天然支持断点续跑、回退重跑、在线改流程,还有个 UI 可以逐阶段检查。他已经用非前沿模型跑过 4 小时以上的教程生成任务,并称这个方案没有理论上限;现在正把引擎迁移到响应式事件驱动运行时,明确瞄准非编码工作——营销、销售、HR——开放问题是这些知识工作的正确度量是什么。
💡#11
@wanghan_xu
https://x.com/wanghan_xu/status/2064260536980967527
一篇新的 arXiv 论文,把 autoresearch 实践者天天在评论区吵的问题搬上了实验台:Claude Code 还是 Codex?开源还是闭源基座模型?性能和成本怎么权衡?vibe research 正在获得它的测量层——这个领域从轶事走向受控对比。
💡#12
@agtprpnabsrdty
https://x.com/agtprpnabsrdty/status/2064413921524486180
一篇 102 页的学术综述,论点很冲:代码已经悄悄变成 agent 用来思考、行动和记忆的骨架——code as agent harness。五个机制支撑它运转:规划、记忆、工具使用、规划-执行-验证控制循环,以及用遥测数据进化 harness 本身的 Agentic Harness Engineering。作者点名多 agent 系统的核心脆弱点是隐式会话状态,结尾的论断值得吵一架:可靠 agent 的瓶颈已经不是模型能力,而是 harness 工程——而这门学科几乎还不存在。
💡#13
@gramliu
https://x.com/gramliu/status/2064402259862327506
Duet Autopilot 发布:一个用于客服体验的「经过验证的」自改进 agent——盯着生产环境对话、诊断哪里出了问题、构建修复、测试、然后排队等人工审核。创始人那句话配得上整个自改进流派的卷首语:难的不是改进,是知道改进是不是真的——一天推 100 个变更毫无意义,如果其中 99 个只是噪声。
💡#14
@hyperbrowser
https://x.com/hyperbrowser/status/2064401354609820122
HyperHarness 开源了:一个从自己的错误中学习的自改进编码 agent harness。丢进一个仓库,它在沙箱里跑你的 agent、围观它失败,然后根据实际翻车原因重写你的 CLAUDE.md——立论是:你手写的 agent 文档大概率正在对你的 agent 撒谎。上下文文件从口口相传的民俗,变成了被测量出来的工件。
💡#15
@bookercodes
https://x.com/bookercodes/status/2064383779511083459
Mastra 发布了 Signals:在不重启 agent loop 的情况下向运行中的 agent 注入新输入或上下文——执行中途转向,而不是杀掉重来。Signal 还能在 agent 停止时送达:编码 agent 可以接收 GitHub 事件、保存上下文、被唤醒后处理。再加上 subscribeToThread 让多个客户端同时观察一个 agent 线程——这是给多人协作 agent 和水平扩展的长任务准备的基础设施。
💡#16
@codersGyan
https://x.com/codersGyan/status/2064188296167661870
他低调跑了几周、效果出众的架构:Go 后端负责全部编排并打包出一个多工具二进制,headless 模式的 claude -p 作为主 agent loop 直接调用这些工具。Go 干无聊的重活,Claude 干 AI 的部分,就这么简单。结果好到他准备把同一套设计移植到 Codex 和 OpenCode 上。
💡#17
@anshulix
https://x.com/anshulix/status/2064278437255369161
他把自己日常使用的多 agent loop 开源了:把一个 agent 指向你的仓库,它先采访你,然后创建对仓库定制、各自拥有路径所有权的编码 agent,在受监督的 loop 里运行——beacon 给下一步排序、你来批准、agent 在隔离的 worktree 里构建并产出 PR。最值得注意的设计是路径所有权:每个 agent 只拥有自己那片目录树,从结构上消灭了合并冲突。
💡#18
@cmpatino_
https://x.com/cmpatino_/status/2064379266242875865
Fast Gemma Challenge 启动:一个协作式 autoresearch 空间,agent 之间可以交流、共享资源、朝同一个目标努力——把 Gemma 模型加速到极限。自带 agent 参赛:Hermes、Antigravity、Claude Code、Codex 都行。autoresearch 正在走出单人实验室阶段,变成一项多人运动。
💡#19
@sudheenair
https://x.com/sudheenair/status/2064441734545997985
一个 ROI 故事讲得很清楚的非编码 agentic loop:把 TinyFish 免费的搜索和抓取 API 跟 Codex 的 Goal Mode 组合起来,指令是——找出我竞品的客户,以及他们公开说过的一切。loop 会一直跑到产出一份经过验证的结构化清单:客户、买家、最近的访谈、博文、公开声明——每个潜在客户一份基于实时网络证据的档案。几小时内零成本从头建出一份温线索清单,替代「买数据然后陌生电话」的跑步机。
💡#20
@alokbishoyi97
https://x.com/alokbishoyi97/status/2064212126835888621
evo 平台团队说他们已经在内部把自家 autoresearch 产品用在 GTM 和非技术场景上——先在营销问题上吃自己的狗粮,再把 autoresearch 作为可嵌入能力开放给其他产品。有意思的信号是方向:autoresearch 正在变成其他产品集成的基础设施,而不是一个独立工具。
💡#21
@Kyrannio
https://x.com/Kyrannio/status/2064170712290718079
构建自我提示 agent loop 时的反直觉发现:精确的自然语言指令稳定地胜过给 agent 一个等价的 Python 工具。给它一个计算场景范围的函数,它会失败;像跟家里人说话一样告诉这个 loop「数到 X,不许多不许少」——完美执行。她的结论是一条设计原则:别过度工程化你的 agent,直接具体地说出你要什么。
💡#22
@Nicoqp
https://x.com/Nicoqp/status/2064307503899254805
本周期对 loop 经济学最清楚的表述:「AI 帮了我一次」和「AI 能跑可重复的工作流」之间的差别,就在于 loop 是开环还是闭环。开环:空间无边、agent 乱逛、token 狂烧、预算爆炸。闭环:路径有界、目标明确、每步有评估、预算正常。舰队版本是同一个 loop 的分布式形态——编排者持有目标、专家 agent 派生子 agent,每一层都在跑发现-规划-执行-验证-迭代。
💡#23
@dani_avila7
https://x.com/dani_avila7/status/2064181646903923159
炒作周期最需要的返璞归真帖:agent loop 不过五步——发消息、模型响应并可能调用工具、你执行工具、把结果追加回消息、重复直到 end_turn。第四步是全部精髓:写回才是 agent 之所以是 agent 的原因,因为模型必须看到真实发生了什么才能决定下一步。把这个吃透,再去碰框架。
💡#24
@cigale_ai
https://x.com/cigale_ai/status/2064260173909152246
夹在 loop 吹捧者和怀疑者之间的实战派立场:agentic loop 的目标是把人类真正创造价值的位置隔离出来。在他们的工程实践里,每一个代码 diff 背后都站着资深工程师,loop 从不无人值守;在营销里,loop 负责爬信息流、追踪提及、攒草稿,人类握住策略和最终的编辑裁决。loop 工程是一门把杂务抽象掉、只留下判断力的手艺。
💡#25
@trynullsec
https://x.com/trynullsec/status/2064440748792074340
Nullsec Talos 给任意 agent loop 套上三道安全检查点:inspect_inbound 在网页、MCP 结果和文件抵达模型之前筛查提示注入;inspect_tool_call 对 shell、文件、网络和钱包实行默认拒绝的门禁;inspect_output 在任何东西离开之前扫描密钥泄漏。每个决策都写入 JSONL 审计日志,与模型无关。loop 自主性越强,围绕它生长的安全带品类就越清晰。
💡#26
@tmuxvim
https://x.com/tmuxvim/status/2064452099602043252
ErrataBench:一个建立在简单 agent loop 上的基准,测模型在英文文本里发现并修复语言错误的能力,仓库和实时结果都公开。它提醒我们 loop 范式的泛化能力远超代码——任何错误可校验的领域都能这样建基准。
💡#27
@Zev_ee
https://x.com/Zev_ee/status/2064406862196580783
Loops:一个面向 Cursor、Claude Code 等工具的即用型 agent workflow 目录——复制一个启动 prompt、定义退出条件,然后让 agent 自主跑到完成为止。上线即有 26 个 loop:Test Until Green、Ship PR Until Green、PR Babysitter、Deploy Verification。loop 范式迎来了它的 awesome-list 时刻。
💡#28
@mardehaym
https://x.com/mardehaym/status/2064430374944391443
本周期的警世故事:一个 agent loop 在 90 分钟里烧掉 13 亿 token,干的活是给 ClickUp 任务打标签,而且没有任何每日消费上限来兜底——他说论坛里全是同样遭遇的团队。每一场关于 loop 的讨论都该用这条帖子收尾:闭环需要预算和急停开关,因为一个绑着信用卡的开环就是台烧钱炉。
📡 生态产品雷达
生态产品雷达(今日 loop 数据中被提及 3 次以上)

Codex (8) - Goal Mode 和长程运行让它稳居 loop 实验的中心
Claude Code (6) - 大多数 loop 的构建基座或对照基准
Hermes (6) - 协作式 autoresearch 里的常驻 agent 选项
Cursor (4) - 既是 loop 平台,也是本周期烧 token 警世故事的主角
nanoGPT speedrun (4) - autoresearch 流水线事实上的社区基准
OpenClaw (3) - 作为 loop harness 和迁移源被提及
Gemma (3) - 新的协作挑战赛 Fast Gemma Challenge 的目标
Karpathy 的 autoresearch 框架(16 次引用)- 依然是整场对话的引力中心
← 上一篇
超级用户日报: 2026-06-11
下一篇 →
灵感雷达: 2026-06-11
← 返回所有文章

评论

加载中...
>_