2026年6月23日loop

Loop 日报: 2026年6月24日

今天关于循环的讨论干净地分成了两拨：真在干活的人，和在炒它的人。信号都在建造者那边：有人在 27B 模型上跑过夜自动研究、只在最后才为前沿模型的审查付费；一个全自动研究实验室在凌晨三点某个基线挂掉时立刻重新规划；一个自我改进框架诚实到承认提升只有十分制里的 0.1 分；一座自主软件工厂连自己插件的新版本都在发。在这些演示底下，一场真正的架构之争正在成形——记忆是自我改进得以复利的地基，agentic 循环可以从第一性原理、用极小的工具集教会，而上下文是你主动去搜出来的、不是等来的。而 Sakana/Fugu 的自动研究里程碑也得到了它需要的怀疑式解读，犀利的拆解指出"编排胜过单个模型"这套说法里有多少其实只是路由、以及它到底要花多少钱。上周的结论依然成立：循环就是产品，但一个没有验证和记忆的循环，只是昂贵的瞎猜。

💡#1

@nasqret
https://x.com/nasqret/status/2069151257143718052
自动研究循环已经成了他和 agent 打交道的默认方式，一旦你学会用这种方式跟问题互动，就很难回到普通提示了。他对代价说得很直白：这是一种很烧模型的工作法，但当深度和发现是优先级时，循环就赢了。这是当天关于"人们为什么抛弃一次性提示"最干净的第一人称表态——不是因为循环时髦，而是当任务奖励探索时，那个质量差距是真实存在的。

💡#2

@matthias_meyer_
https://x.com/matthias_meyer_/status/2068847869419794739
自我改进的 agent 听着像骗术，他也同意：难的从来不是让 agent 重写自己的提示词，而是在生产里这么干、又不让它悄悄变差。于是他做了 Darwin，一个 TypeScript、MIT 协议的框架，把 GEPA（反思式提示进化）移植进真正的生产循环：一个新提示变体只有在永远有效的序贯 A/B 测试里打赢当前版本、并通过对齐守卫，才会上线，否则就回滚。最新的一块是"漂移金丝雀"，把近期工具调用轨迹和冻结的基线对比，抓住分数门会漏掉的行为变化。实诚的收尾：进化带来的提升是真的、但很小，十分制里约 0.1 分，是在他自己的 agent 机群上测的，不是跑分演示。

💡#3

@MLCatttt
https://x.com/MLCatttt/status/2069163208641015854
早在这波浪潮之前，他们就做了 freephdlabor，一个完全自动化的研究实验室：你把一个粗略想法交给它，agent 就端到端接过去——提出假设、写并跑实验、在凌晨三点某个基线挂掉时立刻重新规划，最后留给你一份可以撕的草稿。关键的设计取舍是：你为自己的领域定制整个实验室，而不是用一条固定流水线在每个格子里硬塞一个 LLM——他们认为当前这波自动研究系统恰恰卡在这一点上。它是开源的，建在 smolagents 上。一个真实可跑的例子，演示了如今人人在谈的那种过夜自主研究循环。

💡#4

@Skiipy88
https://x.com/Skiipy88/status/2069141486281597029
一个不需要前沿模型的自主长任务具体配方：在 27B 模型上跑一整夜的自动研究，对任何主题都极其有效。他对"信任"的保险很简单——如果你还不信输出，就让你喜欢的 SOTA 模型来审一遍，这样你仍然省下了 95% 以上的用量。这是对人人都在感受的成本恐慌的一个实用回答：用便宜的本地模型过夜跑那个烧钱的循环，只在验证那一步才为前沿模型付费。

💡#5

@techmeat
https://x.com/techmeat/status/2069023940660375596
Dark Factory 是一座自主软件工厂：往一个频道里丢一个想法，一队 agent 就在你睡觉时把它定范围、构建、评审、发布到一个可访问的线上 URL。它跑在 Nous Research 的 Hermes Agent 上，外加他自己做的两个插件——Hermes Workflows（把你的开发流程打包成可复用工作流）和 Open Second Brain（所有 agent 共享记忆）。自我改进的妙处在于：同一条流水线也在发布这两个插件自己的新版本。这是本周分享的最完整的端到端过夜构建循环之一，而且值得注意——它建在 Hermes 上，不是 Claude Code。

💡#6

@lazyvibecoderx
https://x.com/lazyvibecoderx/status/2069029140423221699
他摆出了一套自我改进 agent 的三优先级栈，而排序本身就是洞见。第一是 agent 记忆，完全本地且 SOTA；第二是一个 wiki"第二大脑"，远超如今人人在发的那种标准 Karpathy 式 Obsidian 套壳；第三才是 harness 本体，能按用例自我复制、自我进化，随时间变强。这比典型的"我搭了个循环"帖子认真得多，它把记忆当成自我改进真正能复利累积的地基。

💡#7

@a_g_e_n_c
https://x.com/a_g_e_n_c/status/2068925099634561438
新的 AgenC 内核快好了，他特意说清楚它不是什么：不是一个市场，而是一个开源、自我改进、内置代码编辑器的 agent 框架。这类项目值得追，恰恰是因为它把自我改进循环和一个编辑界面绑在一起，让 agent 有个地方真正把学到的东西付诸行动。发布在 tetsuo-ai/agenc-core 下。

💡#8

@ximihoque
https://x.com/ximihoque/status/2069175767641272598
在做一个叫 xysq 的工具的第 13/30 天，他推出了 xysq-goal，一个为某个目标收集所有相关上下文的 agentic 循环。有意思的机制是：它会像 A* 搜索一样，主动在你的知识库记忆和各团队之间查询，而不是等你把上下文喂给它。这是"自己组装上下文的 agent"这个想法的一个具体、进行中的实现，被当成一个搜索问题来做，而不是事后补的检索。

💡#9

@wisnuanugrahp
https://x.com/wisnuanugrahp/status/2069013078163980679
一个干净的学习项目：把指令、记忆、工具组合起来，他做了一个不只是回话、而是会推理并执行的助手，称之为 The Agentic Loop。栈小得让人舒服——Python、用 uv 管包、再加 minsearch。它很好地提醒你：agentic 循环是可以从第一性原理、用一套极简工具教会的，而不是只能当作前沿实验室的功能去买。

💡#10

@mdambock
https://x.com/mdambock/status/2069170930014658868
他完成了 DataTalksClub LLM 课程的 Agentic RAG 模块，是真动手实现，不是只学理论。他把工作流从 OpenAI 移植到 Google GenAI SDK 的 gemini-2.5-flash 上，实现了让 token 降 3 倍的滑动窗口分块，并用原生函数调用驱动 agentic 循环。这是一个扎实、可复现的例子——自己搭出"检索—推理—行动"的循环，还顺手把它的成本优化了一遍。

💡#11

@JC_builds
https://x.com/JC_builds/status/2068934746395312623
他很清楚是什么让他那个端上构建器成了真正的 agentic 循环、而不是一锤子买卖：写、在设备上运行、读报错、做有针对性的修改、再运行。关键细节是它的失败处理——如果构建失败，它修那一行坏掉的代码、而不是整个重写，然后一直重试到通过。这是一个具体的循环机制切面，迭代扎根于"在真实设备上把代码跑起来"，而不是靠猜。

💡#12

@ItsMrLin
https://x.com/ItsMrLin/status/2069182583486005647
他在 ICML 2026 上展示 LILO，把它定位为一个建立在贝叶斯优化之上、有原则的自动研究式 harness。分工就是核心想法：LLM 负责调出深层先验知识、捕捉语言反馈，而贝叶斯优化把这些转成带不确定性的搜索与探索。这比典型的演示更严谨，它把"一直探索到有把握为止"的直觉，扎进了一个真正的优化框架里。

💡#13

@whoisanku
https://x.com/whoisanku/status/2068963729719365958
一份清醒的技术拆解，借 Elie Bakouch 之口剖析 Harvey 的新系统 Fugu 和 Fugu Ultra，戳破了一些自动研究的炒作。标准 Fugu 本质上是个每轮挑一个模型的路由器/分类器，据说在 SWE-bench Pro 上比 Claude 3 Opus 低十分；Fugu Ultra 是个用测试时算力扩展的编排器，但限定五步，因为它必须在 t=0 一次预测整条工作流、而非动态决定。他指出 Harvey 的跑分省略了输出 token 数和成本，而那个自动研究基准对比的是匿名的"模型 A、B、C"、而不是有名有姓的前沿模型。这正是那个自动研究里程碑需要的怀疑式解读。

💡#14

@MaaSonder
https://x.com/MaaSonder/status/2069045489195266474
一篇扎实的入门，介绍 Sakana AI 作为一个押注自我改进与编排、而非下一个聊天机器人的研究实验室。最亮的是达尔文哥德尔机（DGM），一个会编辑自己代码来变强的 AI，据说在 SWE-bench 上从 20% 跳到 50%，这比普通 LLM 更接近一个自我改进的 agent 循环。他对局限很诚实：从想法到实验到论文的流水线虽全自动但受领域限制，有一个产出只进了 workshop、没进顶会。一个有用、不吹的框架，说清了自动化研究眼下到底走到哪一步。

💡#15

@amihai
https://x.com/amihai/status/2069030815892123993
一份对 Brilliant 的 agentic 循环干净的剖析，作为设计模式值得研究。高层来看，agent 有一组固定可调的工具——export、lookup、execute_commands、load_knowledge 等等——外加按情境动态出现的工具，比如 generate_image 和 vectorize。这是一个具体切面，看一个真实产品怎么围绕"工具注册表 + 依情境的能力"来组织它的循环，而不是那种对"带工具的 agent"惯常的含糊其辞。

📡 生态产品雷达

生态产品雷达

Sakana / Fugu —— 本周自动研究的引爆点；编排平台加达尔文哥德尔机这条自我改进线，因其 14 小时 AutoResearch 演示和"路由还是真能力"的疑点被反复分析。
Hermes Agent —— Nous Research 的 harness，越来越多被选作自主构建循环（Dark Factory）的底座、而非 Claude Code，配上自定义工作流和共享记忆插件。
Claude Code —— 仍是大家把循环包在外面的默认 harness，/loops 和动态工作流是反复出现的参照点。
GEPA —— 反思式提示进化方法，正被移植进带 A/B 门和回滚的生产自我改进循环（Darwin）。
smolagents —— freephdlabor 这类全自动研究实验室底层用的开源 agent 框架。

← 上一篇

超级用户日报: 2026年6月24日

灵感雷达: 2026年6月24日

← 返回所有文章

加载中...

Loop 日报: 2026年6月24日

相关文章

评论