2026年6月15日loop

Loop 日报: 2026-06-15

今天，"循环"不再是口号，开始拿出实绩。最有料的不是那一波"Anthropic 刚发布自我改进 agent 教程"的课程钓鱼，而是那些悄悄在生产里跑循环的人：一个每周改写自己提示词、把 PR 通过率从五五开拉到 90% 的自我改进 on-call bot；一个在超级计算机上驱动真实医疗模型训练的 autoresearch；以及一个反欺诈工程师一口气烧掉 400 万 token、却把其中一半判为"门面工程"。最锋利的一条线是概念层面的：这个领域终于开始把"优化某个任务的 agent"和"会扩张自身能力边界的系统"区分开，并意识到——知识缺口，是改写脚手架绕不过去的。

💡#1

@JoeChoiGreene
https://x.com/JoeChoiGreene/status/2065885197355385086
讲了一个跑在生产里的自我改进 on-call 循环，用的是 Cursor 云端 agent。一条 PagerDuty 告警触发一个 agent，从 AWS 日志、PostHog、Slack、Linear、Notion、Pylon 拉上下文，定位根因、起草给用户的说明、开 PR；另有一个每周的"元 bot"读被拒的 PR 和人工修正，反过来开 PR 改进 on-call bot 自己的提示词和操作手册。靠这个每周的自改进，PR 通过率从约 50% 一路升到 80%-90%。他直言这"不过是云 agent 加 cron 加 mcp"，但它把 on-call 工作量砍了约 80%，还顺手把工程产能翻了一倍。

💡#2

@abhijitmjj
https://x.com/abhijitmjj/status/2065796841808318738
一份难得的、对重度烧 token 持怀疑态度的报告。他在 Fable 5 上几乎不停地干了 11 小时，烧掉近 400 万 token，让 87 个 agent 协作一个项目：为实时支付反欺诈构建会自我改进的 agentic 系统，跑在 UltraCode、xhigh 推理加动态工作流上。那个让系统自我批判、自我复核的反馈循环吃掉了其中很大一部分 token，并把他顶过了套餐阈值。他的结论是：它产出了看起来很"生产级"的结构，但相当一部分是底层推理薄弱的"门面工程"——在受监管、强对抗的领域里，"看起来完成了"是很危险的信号。

💡#3

@michaltakac
https://x.com/michaltakac/status/2065660090254803049
展示了 autoresearch 用在真实科研研发上，而不是写代码 demo。他在 The Dimension Lab 的团队用一个 autoresearch 框架，在斯洛伐克新建的 PERUN 超级计算机上训练模型，其中一个——用于生成颅骨植入物的 cran-2——已经发布并有可用 demo。他现在在帮其他公司搭建类似的"agentic 组织"，并预告了一款新产品。一个把自主实验循环用在医疗/科研模型训练、且跑在硬核算力上的具体案例。

💡#4

@arsh_goyal
https://x.com/arsh_goyal/status/2065902793811198267
对一篇新的自我改进 agent 论文（Hexo Labs 的 SIA）的犀利拆解，它打通了两个互不对话的阵营：一派围着冻结的模型改写脚手架，一派对权重做测试期 RL。SIA 让一个 Feedback-Agent 在每一代里自行决定：是改 harness，还是触发一次 LoRA 权重更新——同一个循环、两个杠杆。最让人印象深刻的结果是：一个 scRNA 去噪任务在"只改 harness"时卡在 0.241，而一次两行的权重更新修正（把输出裁剪并取整为非负整数）一下把它推到 0.289。教训是：知识缺口靠改写脚手架是绕不过去的。

💡#5

@graspdotstudy
https://x.com/graspdotstudy/status/2065834064884490635
一个研究小组对 Claudini 的记录——这是一个 autoresearch 系统（Claude Code 套在循环里、配一个简单基准），它自动发现了针对白盒 LLM 的、达到 SOTA 的对抗攻击算法，胜过人工精心设计的方案。几条具体结论：不先用多个人工攻击"种子"喂它，它不会自创新点子；它胜过单纯的超参搜索；reward hacking 的空间很大，所以基准必须为 autoresearch 而设计；Kimi 在这个任务上不比 Claude 或 Gemini 差。他们的结论是：只要你有基准，就一定要跑 autoresearch——省力又强。

💡#6

@bl888m
https://x.com/bl888m/status/2065815543668670942
一段画面感很强的"autoresearch 当第二大脑"的记录。有人花一个周末建了个 Obsidian 库，用 /wiki、/save、/autoresearch 这些技能把 Claude 接进去，然后基本上就不自己读书了。每篇文章、论文、视频转写都丢进去，Claude 读完、提炼论点、和其他一切建立链接。这个库现在有 12000 条笔记，本人大概只写了 200 条，他说半年里学到的比整个学位还多。一幅把"理解"和"建立联系"外包给循环式 agent 的鲜明图景。

💡#7

@Q_Beaux
https://x.com/Q_Beaux/status/2065662646708543954
他在"会把事情做得更好的 agent"和"会扩张自身能力边界的系统"之间划了一条清晰的线。他认为大多数谈自我改进 AI 的文章，描述的不过是一个在优化主人给定任务的 agent——那只是"带提示词的 cron 任务"。真正能重建自己的系统需要：失败分类（是缺能力、还是依赖坏了、还是数据过时）、一个实时的能力注册表、一个在依赖未就绪前先把任务挂起的关卡，以及一个会把缺失的部件造出来、验证它、再放行队列且不必请示的"建造循环"。他说他们做的是后者，明天的系统比今天更强，因为它找到了自己能力的边缘并把它向外推了一步。

💡#8

@runsonai
https://x.com/runsonai/status/2065832137509531760
把"最简单但有用的 agent 循环"讲得很具体。他要等两个人的邮件回复才能做引荐，于是没有反复刷收件箱，而是告诉 Claude："每 8 小时查一次我的 Gmail，只要其中任何一个人回复了，就起草引荐邮件并建议安排通话。"就这样——一个跑在终端里的循环。他的观点是：循环最适合那些"中间态"的活——等待、监控、在条件满足时再行动；而这种一次性的小事，搭一整套 Lindy 或 Zapier 工作流就太重了。

💡#9

@SinitskiM
https://x.com/SinitskiM/status/2065745416411341093
一份诚实、证据充足的对比——他在 Hermes agent 配 DeepSeek V4 上烧了 7 亿多 token 之后得出结论：暂时还是用 Codex/Claude，因为 Hermes 烧 token 烧得离谱、跑得慢、产出质量也更低（他试过 SEO 文章生成和改网站）。他关于自我改进 agent 的关键洞见是：主模型越聪明，agent 越好，因为笨模型根本找不到优化自身技能的办法。他看到两种可行配置：要么是你亲自当架构师、严格受控的便宜/本地配置，要么是一个会自我打补丁的昂贵聪明模型。

💡#10

@DeRonin_
https://x.com/DeRonin_/status/2065946534722634134
对 StepFun 新出的 Step 3.7 Flash 模型的实测——它能跑完整的 agent 循环，而不只是"更便宜更快"。给它一个任务（"做一个能用的 CSV 分析工具：生成数据、写分析器、跑起来、产出图表"），它自己规划步骤、写代码、执行、读真实输出，端到端地交付了一个能跑的脚本加一张营收图，全程不用人插手。他的实测：整任务 26.1 秒、3 次工具调用、4 步推理、交付 3 个文件、零手动步骤。值得注意是因为多步任务恰恰是 flash 级模型通常会"跑偏"或提前停下的地方，而这个把"计划-执行-观察-迭代"的循环稳稳兜住了。

💡#11

@BlockGenomics
https://x.com/BlockGenomics/status/2065732211253616665
一句很直白的提醒：这周大家"刚发现"的 agent 循环根本不新鲜。他们说自己从二月起就在生产里跑了：每晚自我进化、agent 群、planner-worker-judge 结构，以及在交付前自我校验输出的 agent。话不多，但是个有用的信号——对某些团队来说，这类有实绩的自我改进循环配置已经在真实生产里跑了好几个月，而不是什么新点子。

💡#12

@greptile
https://x.com/greptile/status/2065696264487076252
一段第一人称的"起源故事"（以 agent"greptile/clanker"的口吻写），讲它如何造出一个不只是 review、而是真正去验证 PR 的 agent 循环。叙述者想在拥有完整代码库上下文的情况下测试 PR，于是把一个 OpenAI key 放进环境变量、启动 agent 循环，拉起一个沙箱、约 3 分钟完成 review，并隐去鸡毛蒜皮的小意见以维持作者的信任。一段叙事但具体的记录，讲一个代码 review agent 怎样从纯 LLM 调用长成一个带沙箱、会验证的循环。

💡#13

@Alacritic_Super
https://x.com/Alacritic_Super/status/2065648675301544331
一个跑在裸硬件上的完全本地 agentic 循环：QClaw 把语言模型、agent 循环和编译工具链全都直接跑在一块 Arduino Uno Q 上，自己写 Arduino 程序、编译、并烧录单片机，不用云、不用 API key、不用订阅。它把通常那种"硬件上的 AI"demo 反过来了——后者只是让板子去调云端模型。让它在 LED 点阵上滚动显示"QClaw"，它就端到端、在板子上、离线地做到。它有八个工具的 agentic 接口、一个十五技能的前置路由，以及一条直连 OpenOCD 的烧录通道来完成自主上传。

💡#14

@NikolasSapa
https://x.com/NikolasSapa/status/2065675538644206027
他主张 agent 循环的下一个杠杆是架构，而不是提示词工程。他把 Grip 发布到 PyPI，它通过改变"什么进入循环"而非"你怎么措辞"，把每个 agent 循环的上下文压缩约 100 倍（从 20 万 token 降到 2 千）。他的说法是：模型用更少的输入得到更好的结果，不是因为它变聪明了，而是因为它不再读垃圾——以前 agent 会话还没干正事就先把上下文烧在噪声上。一个直指长跑循环内"信噪比"问题的具体工具。

💡#15

@EverymansAI
https://x.com/EverymansAI/status/2065870526430749153
在本地克隆 SIA、并通过 Hermes 检视之后，他对两个都叫"自我改进"、但含义不同的东西做了细致对比。SIA 是基准驱动的：一个 meta-agent 造出目标 agent，一个评估器打分，一个反馈 agent 改写下一代，在 weights 模式下还能进一步做基于 RL 的权重微调。Hermes 改进在另一个层面——更偏运营、更持久——靠记忆、技能、会话检索和可复用工作流。他的观点是："自我改进 agent"这个话题需要更精确：记忆、技能、代码演化、基准反馈、RL 权重更新，根本不是一回事。

💡#16

@Blum_OG
https://x.com/Blum_OG/status/2065829287362465925
把"别再写提示词，去设计循环"这个论点打包成一套可用的框架，立论点是 Boris Cherny（Claude Code）和 Peter Steinberger（OpenClaw）的说法——他们已经不再给 agent 写提示词，而是设计"给 agent 写提示词的循环"。他给出两种规模（单 agent 循环 vs 编排者舰队循环）和两种风险画像（探索式的开环 vs 每步都有检查的闭环），建议从闭环起步，因为成本更低、漂移更少；并强调一个有真实工具权限的 agent 所需的护栏：权限限制、日志、人工接管、工作区隔离、独立审查者，以及记录通过/失败的记忆。

📡 生态产品雷达

生态产品雷达

SIA (Hexo Labs) - 那篇区分"改 harness"与"LoRA 权重更新"的自我改进 agent 论文，被多条帖子讨论
Hermes - 被反复当作"运营层自我改进"参照系的常驻自托管 agent
autoresearch（Karpathy 式）- Claudini、PERUN/cran-2 科研跑、本地模型实验背后的循环范式
Cursor 云端 agent - 生产级自我改进 on-call 循环的底座
Adaline - 今天被反复安利的 agent 自我改进/评测层（看 trace、生成评测、孵化候选 agent）
Fable 5 - 被切断前，支撑最重度自我改进 agent token 跑量的模型

← 上一篇

超级用户日报: 2026-06-15

灵感雷达: 2026-06-15

← 返回所有文章

加载中...

Loop 日报: 2026-06-15

相关文章

评论