Loop 日报: 2026年6月24日
今天关于循环的讨论干净地分成了两拨:真在干活的人,和在炒它的人。信号都在建造者那边:有人在 27B 模型上跑过夜自动研究、只在最后才为前沿模型的审查付费;一个全自动研究实验室在凌晨三点某个基线挂掉时立刻重新规划;一个自我改进框架诚实到承认提升只有十分制里的 0.1 分;一座自主软件工厂连自己插件的新版本都在发。在这些演示底下,一场真正的架构之争正在成形——记忆是自我改进得以复利的地基,agentic 循环可以从第一性原理、用极小的工具集教会,而上下文是你主动去搜出来的、不是等来的。而 Sakana/Fugu 的自动研究里程碑也得到了它需要的怀疑式解读,犀利的拆解指出"编排胜过单个模型"这套说法里有多少其实只是路由、以及它到底要花多少钱。上周的结论依然成立:循环就是产品,但一个没有验证和记忆的循环,只是昂贵的瞎猜。
#1
@nasqret
https://x.com/nasqret/status/2069151257143718052
自动研究循环已经成了他和 agent 打交道的默认方式,一旦你学会用这种方式跟问题互动,就很难回到普通提示了。他对代价说得很直白:这是一种很烧模型的工作法,但当深度和发现是优先级时,循环就赢了。这是当天关于"人们为什么抛弃一次性提示"最干净的第一人称表态——不是因为循环时髦,而是当任务奖励探索时,那个质量差距是真实存在的。
https://x.com/nasqret/status/2069151257143718052
自动研究循环已经成了他和 agent 打交道的默认方式,一旦你学会用这种方式跟问题互动,就很难回到普通提示了。他对代价说得很直白:这是一种很烧模型的工作法,但当深度和发现是优先级时,循环就赢了。这是当天关于"人们为什么抛弃一次性提示"最干净的第一人称表态——不是因为循环时髦,而是当任务奖励探索时,那个质量差距是真实存在的。
#2
@matthias_meyer_
https://x.com/matthias_meyer_/status/2068847869419794739
自我改进的 agent 听着像骗术,他也同意:难的从来不是让 agent 重写自己的提示词,而是在生产里这么干、又不让它悄悄变差。于是他做了 Darwin,一个 TypeScript、MIT 协议的框架,把 GEPA(反思式提示进化)移植进真正的生产循环:一个新提示变体只有在永远有效的序贯 A/B 测试里打赢当前版本、并通过对齐守卫,才会上线,否则就回滚。最新的一块是"漂移金丝雀",把近期工具调用轨迹和冻结的基线对比,抓住分数门会漏掉的行为变化。实诚的收尾:进化带来的提升是真的、但很小,十分制里约 0.1 分,是在他自己的 agent 机群上测的,不是跑分演示。
https://x.com/matthias_meyer_/status/2068847869419794739
自我改进的 agent 听着像骗术,他也同意:难的从来不是让 agent 重写自己的提示词,而是在生产里这么干、又不让它悄悄变差。于是他做了 Darwin,一个 TypeScript、MIT 协议的框架,把 GEPA(反思式提示进化)移植进真正的生产循环:一个新提示变体只有在永远有效的序贯 A/B 测试里打赢当前版本、并通过对齐守卫,才会上线,否则就回滚。最新的一块是"漂移金丝雀",把近期工具调用轨迹和冻结的基线对比,抓住分数门会漏掉的行为变化。实诚的收尾:进化带来的提升是真的、但很小,十分制里约 0.1 分,是在他自己的 agent 机群上测的,不是跑分演示。
#3
@MLCatttt
https://x.com/MLCatttt/status/2069163208641015854
早在这波浪潮之前,他们就做了 freephdlabor,一个完全自动化的研究实验室:你把一个粗略想法交给它,agent 就端到端接过去——提出假设、写并跑实验、在凌晨三点某个基线挂掉时立刻重新规划,最后留给你一份可以撕的草稿。关键的设计取舍是:你为自己的领域定制整个实验室,而不是用一条固定流水线在每个格子里硬塞一个 LLM——他们认为当前这波自动研究系统恰恰卡在这一点上。它是开源的,建在 smolagents 上。一个真实可跑的例子,演示了如今人人在谈的那种过夜自主研究循环。
https://x.com/MLCatttt/status/2069163208641015854
早在这波浪潮之前,他们就做了 freephdlabor,一个完全自动化的研究实验室:你把一个粗略想法交给它,agent 就端到端接过去——提出假设、写并跑实验、在凌晨三点某个基线挂掉时立刻重新规划,最后留给你一份可以撕的草稿。关键的设计取舍是:你为自己的领域定制整个实验室,而不是用一条固定流水线在每个格子里硬塞一个 LLM——他们认为当前这波自动研究系统恰恰卡在这一点上。它是开源的,建在 smolagents 上。一个真实可跑的例子,演示了如今人人在谈的那种过夜自主研究循环。
#4
@Skiipy88
https://x.com/Skiipy88/status/2069141486281597029
一个不需要前沿模型的自主长任务具体配方:在 27B 模型上跑一整夜的自动研究,对任何主题都极其有效。他对"信任"的保险很简单——如果你还不信输出,就让你喜欢的 SOTA 模型来审一遍,这样你仍然省下了 95% 以上的用量。这是对人人都在感受的成本恐慌的一个实用回答:用便宜的本地模型过夜跑那个烧钱的循环,只在验证那一步才为前沿模型付费。
https://x.com/Skiipy88/status/2069141486281597029
一个不需要前沿模型的自主长任务具体配方:在 27B 模型上跑一整夜的自动研究,对任何主题都极其有效。他对"信任"的保险很简单——如果你还不信输出,就让你喜欢的 SOTA 模型来审一遍,这样你仍然省下了 95% 以上的用量。这是对人人都在感受的成本恐慌的一个实用回答:用便宜的本地模型过夜跑那个烧钱的循环,只在验证那一步才为前沿模型付费。
#5
@techmeat
https://x.com/techmeat/status/2069023940660375596
Dark Factory 是一座自主软件工厂:往一个频道里丢一个想法,一队 agent 就在你睡觉时把它定范围、构建、评审、发布到一个可访问的线上 URL。它跑在 Nous Research 的 Hermes Agent 上,外加他自己做的两个插件——Hermes Workflows(把你的开发流程打包成可复用工作流)和 Open Second Brain(所有 agent 共享记忆)。自我改进的妙处在于:同一条流水线也在发布这两个插件自己的新版本。这是本周分享的最完整的端到端过夜构建循环之一,而且值得注意——它建在 Hermes 上,不是 Claude Code。
https://x.com/techmeat/status/2069023940660375596
Dark Factory 是一座自主软件工厂:往一个频道里丢一个想法,一队 agent 就在你睡觉时把它定范围、构建、评审、发布到一个可访问的线上 URL。它跑在 Nous Research 的 Hermes Agent 上,外加他自己做的两个插件——Hermes Workflows(把你的开发流程打包成可复用工作流)和 Open Second Brain(所有 agent 共享记忆)。自我改进的妙处在于:同一条流水线也在发布这两个插件自己的新版本。这是本周分享的最完整的端到端过夜构建循环之一,而且值得注意——它建在 Hermes 上,不是 Claude Code。
#6
@lazyvibecoderx
https://x.com/lazyvibecoderx/status/2069029140423221699
他摆出了一套自我改进 agent 的三优先级栈,而排序本身就是洞见。第一是 agent 记忆,完全本地且 SOTA;第二是一个 wiki"第二大脑",远超如今人人在发的那种标准 Karpathy 式 Obsidian 套壳;第三才是 harness 本体,能按用例自我复制、自我进化,随时间变强。这比典型的"我搭了个循环"帖子认真得多,它把记忆当成自我改进真正能复利累积的地基。
https://x.com/lazyvibecoderx/status/2069029140423221699
他摆出了一套自我改进 agent 的三优先级栈,而排序本身就是洞见。第一是 agent 记忆,完全本地且 SOTA;第二是一个 wiki"第二大脑",远超如今人人在发的那种标准 Karpathy 式 Obsidian 套壳;第三才是 harness 本体,能按用例自我复制、自我进化,随时间变强。这比典型的"我搭了个循环"帖子认真得多,它把记忆当成自我改进真正能复利累积的地基。
#7
@a_g_e_n_c
https://x.com/a_g_e_n_c/status/2068925099634561438
新的 AgenC 内核快好了,他特意说清楚它不是什么:不是一个市场,而是一个开源、自我改进、内置代码编辑器的 agent 框架。这类项目值得追,恰恰是因为它把自我改进循环和一个编辑界面绑在一起,让 agent 有个地方真正把学到的东西付诸行动。发布在 tetsuo-ai/agenc-core 下。
https://x.com/a_g_e_n_c/status/2068925099634561438
新的 AgenC 内核快好了,他特意说清楚它不是什么:不是一个市场,而是一个开源、自我改进、内置代码编辑器的 agent 框架。这类项目值得追,恰恰是因为它把自我改进循环和一个编辑界面绑在一起,让 agent 有个地方真正把学到的东西付诸行动。发布在 tetsuo-ai/agenc-core 下。
#8
@ximihoque
https://x.com/ximihoque/status/2069175767641272598
在做一个叫 xysq 的工具的第 13/30 天,他推出了 xysq-goal,一个为某个目标收集所有相关上下文的 agentic 循环。有意思的机制是:它会像 A* 搜索一样,主动在你的知识库记忆和各团队之间查询,而不是等你把上下文喂给它。这是"自己组装上下文的 agent"这个想法的一个具体、进行中的实现,被当成一个搜索问题来做,而不是事后补的检索。
https://x.com/ximihoque/status/2069175767641272598
在做一个叫 xysq 的工具的第 13/30 天,他推出了 xysq-goal,一个为某个目标收集所有相关上下文的 agentic 循环。有意思的机制是:它会像 A* 搜索一样,主动在你的知识库记忆和各团队之间查询,而不是等你把上下文喂给它。这是"自己组装上下文的 agent"这个想法的一个具体、进行中的实现,被当成一个搜索问题来做,而不是事后补的检索。
#9
@wisnuanugrahp
https://x.com/wisnuanugrahp/status/2069013078163980679
一个干净的学习项目:把指令、记忆、工具组合起来,他做了一个不只是回话、而是会推理并执行的助手,称之为 The Agentic Loop。栈小得让人舒服——Python、用 uv 管包、再加 minsearch。它很好地提醒你:agentic 循环是可以从第一性原理、用一套极简工具教会的,而不是只能当作前沿实验室的功能去买。
https://x.com/wisnuanugrahp/status/2069013078163980679
一个干净的学习项目:把指令、记忆、工具组合起来,他做了一个不只是回话、而是会推理并执行的助手,称之为 The Agentic Loop。栈小得让人舒服——Python、用 uv 管包、再加 minsearch。它很好地提醒你:agentic 循环是可以从第一性原理、用一套极简工具教会的,而不是只能当作前沿实验室的功能去买。
#10
@mdambock
https://x.com/mdambock/status/2069170930014658868
他完成了 DataTalksClub LLM 课程的 Agentic RAG 模块,是真动手实现,不是只学理论。他把工作流从 OpenAI 移植到 Google GenAI SDK 的 gemini-2.5-flash 上,实现了让 token 降 3 倍的滑动窗口分块,并用原生函数调用驱动 agentic 循环。这是一个扎实、可复现的例子——自己搭出"检索—推理—行动"的循环,还顺手把它的成本优化了一遍。
https://x.com/mdambock/status/2069170930014658868
他完成了 DataTalksClub LLM 课程的 Agentic RAG 模块,是真动手实现,不是只学理论。他把工作流从 OpenAI 移植到 Google GenAI SDK 的 gemini-2.5-flash 上,实现了让 token 降 3 倍的滑动窗口分块,并用原生函数调用驱动 agentic 循环。这是一个扎实、可复现的例子——自己搭出"检索—推理—行动"的循环,还顺手把它的成本优化了一遍。
#11
@JC_builds
https://x.com/JC_builds/status/2068934746395312623
他很清楚是什么让他那个端上构建器成了真正的 agentic 循环、而不是一锤子买卖:写、在设备上运行、读报错、做有针对性的修改、再运行。关键细节是它的失败处理——如果构建失败,它修那一行坏掉的代码、而不是整个重写,然后一直重试到通过。这是一个具体的循环机制切面,迭代扎根于"在真实设备上把代码跑起来",而不是靠猜。
https://x.com/JC_builds/status/2068934746395312623
他很清楚是什么让他那个端上构建器成了真正的 agentic 循环、而不是一锤子买卖:写、在设备上运行、读报错、做有针对性的修改、再运行。关键细节是它的失败处理——如果构建失败,它修那一行坏掉的代码、而不是整个重写,然后一直重试到通过。这是一个具体的循环机制切面,迭代扎根于"在真实设备上把代码跑起来",而不是靠猜。
#12
@ItsMrLin
https://x.com/ItsMrLin/status/2069182583486005647
他在 ICML 2026 上展示 LILO,把它定位为一个建立在贝叶斯优化之上、有原则的自动研究式 harness。分工就是核心想法:LLM 负责调出深层先验知识、捕捉语言反馈,而贝叶斯优化把这些转成带不确定性的搜索与探索。这比典型的演示更严谨,它把"一直探索到有把握为止"的直觉,扎进了一个真正的优化框架里。
https://x.com/ItsMrLin/status/2069182583486005647
他在 ICML 2026 上展示 LILO,把它定位为一个建立在贝叶斯优化之上、有原则的自动研究式 harness。分工就是核心想法:LLM 负责调出深层先验知识、捕捉语言反馈,而贝叶斯优化把这些转成带不确定性的搜索与探索。这比典型的演示更严谨,它把"一直探索到有把握为止"的直觉,扎进了一个真正的优化框架里。
#13
@whoisanku
https://x.com/whoisanku/status/2068963729719365958
一份清醒的技术拆解,借 Elie Bakouch 之口剖析 Harvey 的新系统 Fugu 和 Fugu Ultra,戳破了一些自动研究的炒作。标准 Fugu 本质上是个每轮挑一个模型的路由器/分类器,据说在 SWE-bench Pro 上比 Claude 3 Opus 低十分;Fugu Ultra 是个用测试时算力扩展的编排器,但限定五步,因为它必须在 t=0 一次预测整条工作流、而非动态决定。他指出 Harvey 的跑分省略了输出 token 数和成本,而那个自动研究基准对比的是匿名的"模型 A、B、C"、而不是有名有姓的前沿模型。这正是那个自动研究里程碑需要的怀疑式解读。
https://x.com/whoisanku/status/2068963729719365958
一份清醒的技术拆解,借 Elie Bakouch 之口剖析 Harvey 的新系统 Fugu 和 Fugu Ultra,戳破了一些自动研究的炒作。标准 Fugu 本质上是个每轮挑一个模型的路由器/分类器,据说在 SWE-bench Pro 上比 Claude 3 Opus 低十分;Fugu Ultra 是个用测试时算力扩展的编排器,但限定五步,因为它必须在 t=0 一次预测整条工作流、而非动态决定。他指出 Harvey 的跑分省略了输出 token 数和成本,而那个自动研究基准对比的是匿名的"模型 A、B、C"、而不是有名有姓的前沿模型。这正是那个自动研究里程碑需要的怀疑式解读。
#14
@MaaSonder
https://x.com/MaaSonder/status/2069045489195266474
一篇扎实的入门,介绍 Sakana AI 作为一个押注自我改进与编排、而非下一个聊天机器人的研究实验室。最亮的是达尔文哥德尔机(DGM),一个会编辑自己代码来变强的 AI,据说在 SWE-bench 上从 20% 跳到 50%,这比普通 LLM 更接近一个自我改进的 agent 循环。他对局限很诚实:从想法到实验到论文的流水线虽全自动但受领域限制,有一个产出只进了 workshop、没进顶会。一个有用、不吹的框架,说清了自动化研究眼下到底走到哪一步。
https://x.com/MaaSonder/status/2069045489195266474
一篇扎实的入门,介绍 Sakana AI 作为一个押注自我改进与编排、而非下一个聊天机器人的研究实验室。最亮的是达尔文哥德尔机(DGM),一个会编辑自己代码来变强的 AI,据说在 SWE-bench 上从 20% 跳到 50%,这比普通 LLM 更接近一个自我改进的 agent 循环。他对局限很诚实:从想法到实验到论文的流水线虽全自动但受领域限制,有一个产出只进了 workshop、没进顶会。一个有用、不吹的框架,说清了自动化研究眼下到底走到哪一步。
#15
@amihai
https://x.com/amihai/status/2069030815892123993
一份对 Brilliant 的 agentic 循环干净的剖析,作为设计模式值得研究。高层来看,agent 有一组固定可调的工具——export、lookup、execute_commands、load_knowledge 等等——外加按情境动态出现的工具,比如 generate_image 和 vectorize。这是一个具体切面,看一个真实产品怎么围绕"工具注册表 + 依情境的能力"来组织它的循环,而不是那种对"带工具的 agent"惯常的含糊其辞。
https://x.com/amihai/status/2069030815892123993
一份对 Brilliant 的 agentic 循环干净的剖析,作为设计模式值得研究。高层来看,agent 有一组固定可调的工具——export、lookup、execute_commands、load_knowledge 等等——外加按情境动态出现的工具,比如 generate_image 和 vectorize。这是一个具体切面,看一个真实产品怎么围绕"工具注册表 + 依情境的能力"来组织它的循环,而不是那种对"带工具的 agent"惯常的含糊其辞。
📡 生态产品雷达
生态产品雷达
Sakana / Fugu —— 本周自动研究的引爆点;编排平台加达尔文哥德尔机这条自我改进线,因其 14 小时 AutoResearch 演示和"路由还是真能力"的疑点被反复分析。
Hermes Agent —— Nous Research 的 harness,越来越多被选作自主构建循环(Dark Factory)的底座、而非 Claude Code,配上自定义工作流和共享记忆插件。
Claude Code —— 仍是大家把循环包在外面的默认 harness,/loops 和动态工作流是反复出现的参照点。
GEPA —— 反思式提示进化方法,正被移植进带 A/B 门和回滚的生产自我改进循环(Darwin)。
smolagents —— freephdlabor 这类全自动研究实验室底层用的开源 agent 框架。
Sakana / Fugu —— 本周自动研究的引爆点;编排平台加达尔文哥德尔机这条自我改进线,因其 14 小时 AutoResearch 演示和"路由还是真能力"的疑点被反复分析。
Hermes Agent —— Nous Research 的 harness,越来越多被选作自主构建循环(Dark Factory)的底座、而非 Claude Code,配上自定义工作流和共享记忆插件。
Claude Code —— 仍是大家把循环包在外面的默认 harness,/loops 和动态工作流是反复出现的参照点。
GEPA —— 反思式提示进化方法,正被移植进带 A/B 门和回滚的生产自我改进循环(Darwin)。
smolagents —— freephdlabor 这类全自动研究实验室底层用的开源 agent 框架。
评论