Loop 日报: 2026-06-15
今天,"循环"不再是口号,开始拿出实绩。最有料的不是那一波"Anthropic 刚发布自我改进 agent 教程"的课程钓鱼,而是那些悄悄在生产里跑循环的人:一个每周改写自己提示词、把 PR 通过率从五五开拉到 90% 的自我改进 on-call bot;一个在超级计算机上驱动真实医疗模型训练的 autoresearch;以及一个反欺诈工程师一口气烧掉 400 万 token、却把其中一半判为"门面工程"。最锋利的一条线是概念层面的:这个领域终于开始把"优化某个任务的 agent"和"会扩张自身能力边界的系统"区分开,并意识到——知识缺口,是改写脚手架绕不过去的。
#1
@JoeChoiGreene
https://x.com/JoeChoiGreene/status/2065885197355385086
讲了一个跑在生产里的自我改进 on-call 循环,用的是 Cursor 云端 agent。一条 PagerDuty 告警触发一个 agent,从 AWS 日志、PostHog、Slack、Linear、Notion、Pylon 拉上下文,定位根因、起草给用户的说明、开 PR;另有一个每周的"元 bot"读被拒的 PR 和人工修正,反过来开 PR 改进 on-call bot 自己的提示词和操作手册。靠这个每周的自改进,PR 通过率从约 50% 一路升到 80%-90%。他直言这"不过是云 agent 加 cron 加 mcp",但它把 on-call 工作量砍了约 80%,还顺手把工程产能翻了一倍。
https://x.com/JoeChoiGreene/status/2065885197355385086
讲了一个跑在生产里的自我改进 on-call 循环,用的是 Cursor 云端 agent。一条 PagerDuty 告警触发一个 agent,从 AWS 日志、PostHog、Slack、Linear、Notion、Pylon 拉上下文,定位根因、起草给用户的说明、开 PR;另有一个每周的"元 bot"读被拒的 PR 和人工修正,反过来开 PR 改进 on-call bot 自己的提示词和操作手册。靠这个每周的自改进,PR 通过率从约 50% 一路升到 80%-90%。他直言这"不过是云 agent 加 cron 加 mcp",但它把 on-call 工作量砍了约 80%,还顺手把工程产能翻了一倍。
#2
@abhijitmjj
https://x.com/abhijitmjj/status/2065796841808318738
一份难得的、对重度烧 token 持怀疑态度的报告。他在 Fable 5 上几乎不停地干了 11 小时,烧掉近 400 万 token,让 87 个 agent 协作一个项目:为实时支付反欺诈构建会自我改进的 agentic 系统,跑在 UltraCode、xhigh 推理加动态工作流上。那个让系统自我批判、自我复核的反馈循环吃掉了其中很大一部分 token,并把他顶过了套餐阈值。他的结论是:它产出了看起来很"生产级"的结构,但相当一部分是底层推理薄弱的"门面工程"——在受监管、强对抗的领域里,"看起来完成了"是很危险的信号。
https://x.com/abhijitmjj/status/2065796841808318738
一份难得的、对重度烧 token 持怀疑态度的报告。他在 Fable 5 上几乎不停地干了 11 小时,烧掉近 400 万 token,让 87 个 agent 协作一个项目:为实时支付反欺诈构建会自我改进的 agentic 系统,跑在 UltraCode、xhigh 推理加动态工作流上。那个让系统自我批判、自我复核的反馈循环吃掉了其中很大一部分 token,并把他顶过了套餐阈值。他的结论是:它产出了看起来很"生产级"的结构,但相当一部分是底层推理薄弱的"门面工程"——在受监管、强对抗的领域里,"看起来完成了"是很危险的信号。
#3
@michaltakac
https://x.com/michaltakac/status/2065660090254803049
展示了 autoresearch 用在真实科研研发上,而不是写代码 demo。他在 The Dimension Lab 的团队用一个 autoresearch 框架,在斯洛伐克新建的 PERUN 超级计算机上训练模型,其中一个——用于生成颅骨植入物的 cran-2——已经发布并有可用 demo。他现在在帮其他公司搭建类似的"agentic 组织",并预告了一款新产品。一个把自主实验循环用在医疗/科研模型训练、且跑在硬核算力上的具体案例。
https://x.com/michaltakac/status/2065660090254803049
展示了 autoresearch 用在真实科研研发上,而不是写代码 demo。他在 The Dimension Lab 的团队用一个 autoresearch 框架,在斯洛伐克新建的 PERUN 超级计算机上训练模型,其中一个——用于生成颅骨植入物的 cran-2——已经发布并有可用 demo。他现在在帮其他公司搭建类似的"agentic 组织",并预告了一款新产品。一个把自主实验循环用在医疗/科研模型训练、且跑在硬核算力上的具体案例。
#4
@arsh_goyal
https://x.com/arsh_goyal/status/2065902793811198267
对一篇新的自我改进 agent 论文(Hexo Labs 的 SIA)的犀利拆解,它打通了两个互不对话的阵营:一派围着冻结的模型改写脚手架,一派对权重做测试期 RL。SIA 让一个 Feedback-Agent 在每一代里自行决定:是改 harness,还是触发一次 LoRA 权重更新——同一个循环、两个杠杆。最让人印象深刻的结果是:一个 scRNA 去噪任务在"只改 harness"时卡在 0.241,而一次两行的权重更新修正(把输出裁剪并取整为非负整数)一下把它推到 0.289。教训是:知识缺口靠改写脚手架是绕不过去的。
https://x.com/arsh_goyal/status/2065902793811198267
对一篇新的自我改进 agent 论文(Hexo Labs 的 SIA)的犀利拆解,它打通了两个互不对话的阵营:一派围着冻结的模型改写脚手架,一派对权重做测试期 RL。SIA 让一个 Feedback-Agent 在每一代里自行决定:是改 harness,还是触发一次 LoRA 权重更新——同一个循环、两个杠杆。最让人印象深刻的结果是:一个 scRNA 去噪任务在"只改 harness"时卡在 0.241,而一次两行的权重更新修正(把输出裁剪并取整为非负整数)一下把它推到 0.289。教训是:知识缺口靠改写脚手架是绕不过去的。
#5
@graspdotstudy
https://x.com/graspdotstudy/status/2065834064884490635
一个研究小组对 Claudini 的记录——这是一个 autoresearch 系统(Claude Code 套在循环里、配一个简单基准),它自动发现了针对白盒 LLM 的、达到 SOTA 的对抗攻击算法,胜过人工精心设计的方案。几条具体结论:不先用多个人工攻击"种子"喂它,它不会自创新点子;它胜过单纯的超参搜索;reward hacking 的空间很大,所以基准必须为 autoresearch 而设计;Kimi 在这个任务上不比 Claude 或 Gemini 差。他们的结论是:只要你有基准,就一定要跑 autoresearch——省力又强。
https://x.com/graspdotstudy/status/2065834064884490635
一个研究小组对 Claudini 的记录——这是一个 autoresearch 系统(Claude Code 套在循环里、配一个简单基准),它自动发现了针对白盒 LLM 的、达到 SOTA 的对抗攻击算法,胜过人工精心设计的方案。几条具体结论:不先用多个人工攻击"种子"喂它,它不会自创新点子;它胜过单纯的超参搜索;reward hacking 的空间很大,所以基准必须为 autoresearch 而设计;Kimi 在这个任务上不比 Claude 或 Gemini 差。他们的结论是:只要你有基准,就一定要跑 autoresearch——省力又强。
#6
@bl888m
https://x.com/bl888m/status/2065815543668670942
一段画面感很强的"autoresearch 当第二大脑"的记录。有人花一个周末建了个 Obsidian 库,用 /wiki、/save、/autoresearch 这些技能把 Claude 接进去,然后基本上就不自己读书了。每篇文章、论文、视频转写都丢进去,Claude 读完、提炼论点、和其他一切建立链接。这个库现在有 12000 条笔记,本人大概只写了 200 条,他说半年里学到的比整个学位还多。一幅把"理解"和"建立联系"外包给循环式 agent 的鲜明图景。
https://x.com/bl888m/status/2065815543668670942
一段画面感很强的"autoresearch 当第二大脑"的记录。有人花一个周末建了个 Obsidian 库,用 /wiki、/save、/autoresearch 这些技能把 Claude 接进去,然后基本上就不自己读书了。每篇文章、论文、视频转写都丢进去,Claude 读完、提炼论点、和其他一切建立链接。这个库现在有 12000 条笔记,本人大概只写了 200 条,他说半年里学到的比整个学位还多。一幅把"理解"和"建立联系"外包给循环式 agent 的鲜明图景。
#7
@Q_Beaux
https://x.com/Q_Beaux/status/2065662646708543954
他在"会把事情做得更好的 agent"和"会扩张自身能力边界的系统"之间划了一条清晰的线。他认为大多数谈自我改进 AI 的文章,描述的不过是一个在优化主人给定任务的 agent——那只是"带提示词的 cron 任务"。真正能重建自己的系统需要:失败分类(是缺能力、还是依赖坏了、还是数据过时)、一个实时的能力注册表、一个在依赖未就绪前先把任务挂起的关卡,以及一个会把缺失的部件造出来、验证它、再放行队列且不必请示的"建造循环"。他说他们做的是后者,明天的系统比今天更强,因为它找到了自己能力的边缘并把它向外推了一步。
https://x.com/Q_Beaux/status/2065662646708543954
他在"会把事情做得更好的 agent"和"会扩张自身能力边界的系统"之间划了一条清晰的线。他认为大多数谈自我改进 AI 的文章,描述的不过是一个在优化主人给定任务的 agent——那只是"带提示词的 cron 任务"。真正能重建自己的系统需要:失败分类(是缺能力、还是依赖坏了、还是数据过时)、一个实时的能力注册表、一个在依赖未就绪前先把任务挂起的关卡,以及一个会把缺失的部件造出来、验证它、再放行队列且不必请示的"建造循环"。他说他们做的是后者,明天的系统比今天更强,因为它找到了自己能力的边缘并把它向外推了一步。
#8
@runsonai
https://x.com/runsonai/status/2065832137509531760
把"最简单但有用的 agent 循环"讲得很具体。他要等两个人的邮件回复才能做引荐,于是没有反复刷收件箱,而是告诉 Claude:"每 8 小时查一次我的 Gmail,只要其中任何一个人回复了,就起草引荐邮件并建议安排通话。"就这样——一个跑在终端里的循环。他的观点是:循环最适合那些"中间态"的活——等待、监控、在条件满足时再行动;而这种一次性的小事,搭一整套 Lindy 或 Zapier 工作流就太重了。
https://x.com/runsonai/status/2065832137509531760
把"最简单但有用的 agent 循环"讲得很具体。他要等两个人的邮件回复才能做引荐,于是没有反复刷收件箱,而是告诉 Claude:"每 8 小时查一次我的 Gmail,只要其中任何一个人回复了,就起草引荐邮件并建议安排通话。"就这样——一个跑在终端里的循环。他的观点是:循环最适合那些"中间态"的活——等待、监控、在条件满足时再行动;而这种一次性的小事,搭一整套 Lindy 或 Zapier 工作流就太重了。
#9
@SinitskiM
https://x.com/SinitskiM/status/2065745416411341093
一份诚实、证据充足的对比——他在 Hermes agent 配 DeepSeek V4 上烧了 7 亿多 token 之后得出结论:暂时还是用 Codex/Claude,因为 Hermes 烧 token 烧得离谱、跑得慢、产出质量也更低(他试过 SEO 文章生成和改网站)。他关于自我改进 agent 的关键洞见是:主模型越聪明,agent 越好,因为笨模型根本找不到优化自身技能的办法。他看到两种可行配置:要么是你亲自当架构师、严格受控的便宜/本地配置,要么是一个会自我打补丁的昂贵聪明模型。
https://x.com/SinitskiM/status/2065745416411341093
一份诚实、证据充足的对比——他在 Hermes agent 配 DeepSeek V4 上烧了 7 亿多 token 之后得出结论:暂时还是用 Codex/Claude,因为 Hermes 烧 token 烧得离谱、跑得慢、产出质量也更低(他试过 SEO 文章生成和改网站)。他关于自我改进 agent 的关键洞见是:主模型越聪明,agent 越好,因为笨模型根本找不到优化自身技能的办法。他看到两种可行配置:要么是你亲自当架构师、严格受控的便宜/本地配置,要么是一个会自我打补丁的昂贵聪明模型。
#10
@DeRonin_
https://x.com/DeRonin_/status/2065946534722634134
对 StepFun 新出的 Step 3.7 Flash 模型的实测——它能跑完整的 agent 循环,而不只是"更便宜更快"。给它一个任务("做一个能用的 CSV 分析工具:生成数据、写分析器、跑起来、产出图表"),它自己规划步骤、写代码、执行、读真实输出,端到端地交付了一个能跑的脚本加一张营收图,全程不用人插手。他的实测:整任务 26.1 秒、3 次工具调用、4 步推理、交付 3 个文件、零手动步骤。值得注意是因为多步任务恰恰是 flash 级模型通常会"跑偏"或提前停下的地方,而这个把"计划-执行-观察-迭代"的循环稳稳兜住了。
https://x.com/DeRonin_/status/2065946534722634134
对 StepFun 新出的 Step 3.7 Flash 模型的实测——它能跑完整的 agent 循环,而不只是"更便宜更快"。给它一个任务("做一个能用的 CSV 分析工具:生成数据、写分析器、跑起来、产出图表"),它自己规划步骤、写代码、执行、读真实输出,端到端地交付了一个能跑的脚本加一张营收图,全程不用人插手。他的实测:整任务 26.1 秒、3 次工具调用、4 步推理、交付 3 个文件、零手动步骤。值得注意是因为多步任务恰恰是 flash 级模型通常会"跑偏"或提前停下的地方,而这个把"计划-执行-观察-迭代"的循环稳稳兜住了。
#11
@BlockGenomics
https://x.com/BlockGenomics/status/2065732211253616665
一句很直白的提醒:这周大家"刚发现"的 agent 循环根本不新鲜。他们说自己从二月起就在生产里跑了:每晚自我进化、agent 群、planner-worker-judge 结构,以及在交付前自我校验输出的 agent。话不多,但是个有用的信号——对某些团队来说,这类有实绩的自我改进循环配置已经在真实生产里跑了好几个月,而不是什么新点子。
https://x.com/BlockGenomics/status/2065732211253616665
一句很直白的提醒:这周大家"刚发现"的 agent 循环根本不新鲜。他们说自己从二月起就在生产里跑了:每晚自我进化、agent 群、planner-worker-judge 结构,以及在交付前自我校验输出的 agent。话不多,但是个有用的信号——对某些团队来说,这类有实绩的自我改进循环配置已经在真实生产里跑了好几个月,而不是什么新点子。
#12
@greptile
https://x.com/greptile/status/2065696264487076252
一段第一人称的"起源故事"(以 agent"greptile/clanker"的口吻写),讲它如何造出一个不只是 review、而是真正去验证 PR 的 agent 循环。叙述者想在拥有完整代码库上下文的情况下测试 PR,于是把一个 OpenAI key 放进环境变量、启动 agent 循环,拉起一个沙箱、约 3 分钟完成 review,并隐去鸡毛蒜皮的小意见以维持作者的信任。一段叙事但具体的记录,讲一个代码 review agent 怎样从纯 LLM 调用长成一个带沙箱、会验证的循环。
https://x.com/greptile/status/2065696264487076252
一段第一人称的"起源故事"(以 agent"greptile/clanker"的口吻写),讲它如何造出一个不只是 review、而是真正去验证 PR 的 agent 循环。叙述者想在拥有完整代码库上下文的情况下测试 PR,于是把一个 OpenAI key 放进环境变量、启动 agent 循环,拉起一个沙箱、约 3 分钟完成 review,并隐去鸡毛蒜皮的小意见以维持作者的信任。一段叙事但具体的记录,讲一个代码 review agent 怎样从纯 LLM 调用长成一个带沙箱、会验证的循环。
#13
@Alacritic_Super
https://x.com/Alacritic_Super/status/2065648675301544331
一个跑在裸硬件上的完全本地 agentic 循环:QClaw 把语言模型、agent 循环和编译工具链全都直接跑在一块 Arduino Uno Q 上,自己写 Arduino 程序、编译、并烧录单片机,不用云、不用 API key、不用订阅。它把通常那种"硬件上的 AI"demo 反过来了——后者只是让板子去调云端模型。让它在 LED 点阵上滚动显示"QClaw",它就端到端、在板子上、离线地做到。它有八个工具的 agentic 接口、一个十五技能的前置路由,以及一条直连 OpenOCD 的烧录通道来完成自主上传。
https://x.com/Alacritic_Super/status/2065648675301544331
一个跑在裸硬件上的完全本地 agentic 循环:QClaw 把语言模型、agent 循环和编译工具链全都直接跑在一块 Arduino Uno Q 上,自己写 Arduino 程序、编译、并烧录单片机,不用云、不用 API key、不用订阅。它把通常那种"硬件上的 AI"demo 反过来了——后者只是让板子去调云端模型。让它在 LED 点阵上滚动显示"QClaw",它就端到端、在板子上、离线地做到。它有八个工具的 agentic 接口、一个十五技能的前置路由,以及一条直连 OpenOCD 的烧录通道来完成自主上传。
#14
@NikolasSapa
https://x.com/NikolasSapa/status/2065675538644206027
他主张 agent 循环的下一个杠杆是架构,而不是提示词工程。他把 Grip 发布到 PyPI,它通过改变"什么进入循环"而非"你怎么措辞",把每个 agent 循环的上下文压缩约 100 倍(从 20 万 token 降到 2 千)。他的说法是:模型用更少的输入得到更好的结果,不是因为它变聪明了,而是因为它不再读垃圾——以前 agent 会话还没干正事就先把上下文烧在噪声上。一个直指长跑循环内"信噪比"问题的具体工具。
https://x.com/NikolasSapa/status/2065675538644206027
他主张 agent 循环的下一个杠杆是架构,而不是提示词工程。他把 Grip 发布到 PyPI,它通过改变"什么进入循环"而非"你怎么措辞",把每个 agent 循环的上下文压缩约 100 倍(从 20 万 token 降到 2 千)。他的说法是:模型用更少的输入得到更好的结果,不是因为它变聪明了,而是因为它不再读垃圾——以前 agent 会话还没干正事就先把上下文烧在噪声上。一个直指长跑循环内"信噪比"问题的具体工具。
#15
@EverymansAI
https://x.com/EverymansAI/status/2065870526430749153
在本地克隆 SIA、并通过 Hermes 检视之后,他对两个都叫"自我改进"、但含义不同的东西做了细致对比。SIA 是基准驱动的:一个 meta-agent 造出目标 agent,一个评估器打分,一个反馈 agent 改写下一代,在 weights 模式下还能进一步做基于 RL 的权重微调。Hermes 改进在另一个层面——更偏运营、更持久——靠记忆、技能、会话检索和可复用工作流。他的观点是:"自我改进 agent"这个话题需要更精确:记忆、技能、代码演化、基准反馈、RL 权重更新,根本不是一回事。
https://x.com/EverymansAI/status/2065870526430749153
在本地克隆 SIA、并通过 Hermes 检视之后,他对两个都叫"自我改进"、但含义不同的东西做了细致对比。SIA 是基准驱动的:一个 meta-agent 造出目标 agent,一个评估器打分,一个反馈 agent 改写下一代,在 weights 模式下还能进一步做基于 RL 的权重微调。Hermes 改进在另一个层面——更偏运营、更持久——靠记忆、技能、会话检索和可复用工作流。他的观点是:"自我改进 agent"这个话题需要更精确:记忆、技能、代码演化、基准反馈、RL 权重更新,根本不是一回事。
#16
@Blum_OG
https://x.com/Blum_OG/status/2065829287362465925
把"别再写提示词,去设计循环"这个论点打包成一套可用的框架,立论点是 Boris Cherny(Claude Code)和 Peter Steinberger(OpenClaw)的说法——他们已经不再给 agent 写提示词,而是设计"给 agent 写提示词的循环"。他给出两种规模(单 agent 循环 vs 编排者舰队循环)和两种风险画像(探索式的开环 vs 每步都有检查的闭环),建议从闭环起步,因为成本更低、漂移更少;并强调一个有真实工具权限的 agent 所需的护栏:权限限制、日志、人工接管、工作区隔离、独立审查者,以及记录通过/失败的记忆。
https://x.com/Blum_OG/status/2065829287362465925
把"别再写提示词,去设计循环"这个论点打包成一套可用的框架,立论点是 Boris Cherny(Claude Code)和 Peter Steinberger(OpenClaw)的说法——他们已经不再给 agent 写提示词,而是设计"给 agent 写提示词的循环"。他给出两种规模(单 agent 循环 vs 编排者舰队循环)和两种风险画像(探索式的开环 vs 每步都有检查的闭环),建议从闭环起步,因为成本更低、漂移更少;并强调一个有真实工具权限的 agent 所需的护栏:权限限制、日志、人工接管、工作区隔离、独立审查者,以及记录通过/失败的记忆。
📡 生态产品雷达
生态产品雷达
SIA (Hexo Labs) - 那篇区分"改 harness"与"LoRA 权重更新"的自我改进 agent 论文,被多条帖子讨论
Hermes - 被反复当作"运营层自我改进"参照系的常驻自托管 agent
autoresearch(Karpathy 式)- Claudini、PERUN/cran-2 科研跑、本地模型实验背后的循环范式
Cursor 云端 agent - 生产级自我改进 on-call 循环的底座
Adaline - 今天被反复安利的 agent 自我改进/评测层(看 trace、生成评测、孵化候选 agent)
Fable 5 - 被切断前,支撑最重度自我改进 agent token 跑量的模型
SIA (Hexo Labs) - 那篇区分"改 harness"与"LoRA 权重更新"的自我改进 agent 论文,被多条帖子讨论
Hermes - 被反复当作"运营层自我改进"参照系的常驻自托管 agent
autoresearch(Karpathy 式)- Claudini、PERUN/cran-2 科研跑、本地模型实验背后的循环范式
Cursor 云端 agent - 生产级自我改进 on-call 循环的底座
Adaline - 今天被反复安利的 agent 自我改进/评测层(看 trace、生成评测、孵化候选 agent)
Fable 5 - 被切断前,支撑最重度自我改进 agent token 跑量的模型
评论