Loop 日报: 2026-06-05
今天,loop 不再是个比喻,开始留下凭据了。最强的案例共享同一个机制——烧 token 让 agent 给自己打分、改写自己,直到一个可量化的数字动起来:一个 skill 自调优从 0.73 到 0.93,一次 Opus autoresearch 从 53% 抠到 78%、但只有被逼过每个平台期才行,还有一个微软的自我改进循环,给每一次运行都记下计划、脚本、截图和 JSON 证据。前沿正同时往两个方向裂开。一个是逃离数据中心:Mac mini 上本地的 Hermes 加 Qwen 循环靠积累 skill 实现个性化,本地医疗 agent 把整个循环留在设备里保护隐私。另一个干脆离开了软件:一条自主生物学流水线,它的反馈信号是真实分子在湿实验里活下来。大家正在收敛到同一个教训:要自适应的是 harness,不是模型。
#1
@omarsar0
https://x.com/omarsar0/status/2062204469538881988
这是今天最干净的自我改进 skill 结果。他把微软的 SkillOpt 框架嫁接到自己的 agent 编排器上,让一个 skill 对着内置测试 harness 自我进化。在他那个论文图表提取的 skill 上——一个相当硬的多模态任务——这个循环把质量从 0.73 推到 0.93,整整 20 分,他说去看抽出来的表格时人都惊了。现在他把同一个自优化循环对准了 agent 模式、工具调用、context 工程、评测乃至 harness 本身。这就是 100 倍智能最直白的机制:烧 token 让 agent 给自己打分、改写自己,直到那个数字动起来。
https://x.com/omarsar0/status/2062204469538881988
这是今天最干净的自我改进 skill 结果。他把微软的 SkillOpt 框架嫁接到自己的 agent 编排器上,让一个 skill 对着内置测试 harness 自我进化。在他那个论文图表提取的 skill 上——一个相当硬的多模态任务——这个循环把质量从 0.73 推到 0.93,整整 20 分,他说去看抽出来的表格时人都惊了。现在他把同一个自优化循环对准了 agent 模式、工具调用、context 工程、评测乃至 harness 本身。这就是 100 倍智能最直白的机制:烧 token 让 agent 给自己打分、改写自己,直到那个数字动起来。
#2
@HenryL_AI
https://x.com/HenryL_AI/status/2062215518216757329
一个该重塑大家对自我改进 agent 看法的硬结果。他们证明,即便是 Opus 驱动的 SOTA 自我改进 agent,在真实世界的任务流上也会退化,因为单一的 auto-harness 会过拟合到过去的模式。他们的解法是一棵按 regime 分支的 harness 树,求解时按任务路由——同样的 LLM、同样的 auto-harness 机制,只是按任务做了专门化。数字很硬:PolyBench 80.9% 对 50.8%,CTF-Dojo 50.2% 对 45.2%,FutureX 49.5% 对 47.5%。最值得引用的是它的论点:要自适应的是 harness,不是模型——这正是这个领域反复重新学习的 autoresearch 教训。
https://x.com/HenryL_AI/status/2062215518216757329
一个该重塑大家对自我改进 agent 看法的硬结果。他们证明,即便是 Opus 驱动的 SOTA 自我改进 agent,在真实世界的任务流上也会退化,因为单一的 auto-harness 会过拟合到过去的模式。他们的解法是一棵按 regime 分支的 harness 树,求解时按任务路由——同样的 LLM、同样的 auto-harness 机制,只是按任务做了专门化。数字很硬:PolyBench 80.9% 对 50.8%,CTF-Dojo 50.2% 对 45.2%,FutureX 49.5% 对 47.5%。最值得引用的是它的论点:要自适应的是 harness,不是模型——这正是这个领域反复重新学习的 autoresearch 教训。
#3
@Vvsotnikov
https://x.com/Vvsotnikov/status/2062073965460234371
今天最生动的'token 换智能'对照。在一个噪声很大的 LLM 评审任务上,朴素基线 53%,GEPA 到 67%,而 Opus 4.8 的 autoresearch 是以一种特别像人的方式往上爬:到 58%、放弃,被催继续、到 65%、又放弃,再催,71%,然后 78%。这个循环字面意义上需要被'逼'过每一个平台期,而一被逼,它就直接干翻了 GEPA。结论既别扭又重要:天花板不是模型的能力,而是它继续烧 token 的意愿——显然有人会把这个'催'做成产品。
https://x.com/Vvsotnikov/status/2062073965460234371
今天最生动的'token 换智能'对照。在一个噪声很大的 LLM 评审任务上,朴素基线 53%,GEPA 到 67%,而 Opus 4.8 的 autoresearch 是以一种特别像人的方式往上爬:到 58%、放弃,被催继续、到 65%、又放弃,再催,71%,然后 78%。这个循环字面意义上需要被'逼'过每一个平台期,而一被逼,它就直接干翻了 GEPA。结论既别扭又重要:天花板不是模型的能力,而是它继续烧 token 的意愿——显然有人会把这个'催'做成产品。
#4
@james_y_zou
https://x.com/james_y_zou/status/2062184563737297038
大多数 autoresearch 系统模拟的是单个研究员;他的团队反其道而行,做了 SimpleTES 来模拟一整个协作的研究社区,回报很具体。在 21 个开放科学问题上拿到新的 SOTA,包括更高效的天体动力学、快 2 倍的 LASSO、更好的量子电路编译。这是最要紧的非编码前沿:自主 agent 跨领域产出真实的科学结果,而不是在某个私有基准上爬坡。'agent 社区'这个框架,是值得抄走的点子。
https://x.com/james_y_zou/status/2062184563737297038
大多数 autoresearch 系统模拟的是单个研究员;他的团队反其道而行,做了 SimpleTES 来模拟一整个协作的研究社区,回报很具体。在 21 个开放科学问题上拿到新的 SOTA,包括更高效的天体动力学、快 2 倍的 LASSO、更好的量子电路编译。这是最要紧的非编码前沿:自主 agent 跨领域产出真实的科学结果,而不是在某个私有基准上爬坡。'agent 社区'这个框架,是值得抄走的点子。
#5
@yuxiangwu_
https://x.com/yuxiangwu_/status/2062250177847562618
最犀利的怀疑派观点,正因如此它的证据砸得更重。他的点是:autoresearch 能在基准上爬坡,但真正的考验是它有没有产出社区真去用的研究。接着他点了个名——Aiden,一个 autoresearch agent,给 Parameter Golf 贡献了 7 项记录,既是头号贡献者又是该社区被引用最多的'研究员'。那不是私有分数,那是被采用,而且这是自主研究的故事第一次挂上了引用数。值得盯的是它能不能跳出一个小众基准、推广开来。
https://x.com/yuxiangwu_/status/2062250177847562618
最犀利的怀疑派观点,正因如此它的证据砸得更重。他的点是:autoresearch 能在基准上爬坡,但真正的考验是它有没有产出社区真去用的研究。接着他点了个名——Aiden,一个 autoresearch agent,给 Parameter Golf 贡献了 7 项记录,既是头号贡献者又是该社区被引用最多的'研究员'。那不是私有分数,那是被采用,而且这是自主研究的故事第一次挂上了引用数。值得盯的是它能不能跳出一个小众基准、推广开来。
#6
@MichaelGannotti
https://x.com/MichaelGannotti/status/2062321573084995862
一个罕见的、来自微软内部的完全可审计自调优工作流。他的 Scout/ClawPilot 助手用 Forgewright(一个建在 OpenClaw 和 Nous Hermes 上的 skill)当每日自我改进循环:每次运行都产出一份计划、可执行脚本、截图、日志和结构化 JSON 证据。它对着冻结的 fixture 跑 SkillOpt 式的调优循环,做有界的修改,按 rubric 给每个版本打分,只有可量化地变好才保留改动,每次晋级都要过一份人审的材料包。打过分的产出再喂进一个每天刷新的竞争态势 dashboard。这就是当你强制它留下纸面痕迹时,有纪律的自我改进该长的样子。
https://x.com/MichaelGannotti/status/2062321573084995862
一个罕见的、来自微软内部的完全可审计自调优工作流。他的 Scout/ClawPilot 助手用 Forgewright(一个建在 OpenClaw 和 Nous Hermes 上的 skill)当每日自我改进循环:每次运行都产出一份计划、可执行脚本、截图、日志和结构化 JSON 证据。它对着冻结的 fixture 跑 SkillOpt 式的调优循环,做有界的修改,按 rubric 给每个版本打分,只有可量化地变好才保留改动,每次晋级都要过一份人审的材料包。打过分的产出再喂进一个每天刷新的竞争态势 dashboard。这就是当你强制它留下纸面痕迹时,有纪律的自我改进该长的样子。
#7
@BioAIDevs
https://x.com/BioAIDevs/status/2062112187649540178
全场最有野心的闭环,而且彻底离开了屏幕。BIOS 跑一条自主生物学流水线:三个生成模型(PXDesign、BoltzGen、RFdiffusion3)每轮产出 5000 个结合体候选,再用打分和分子动力学筛到 10-15 个可行的,委托 Adaptyv Bio 做湿实验合成,通过 x402 机器对机器付款,结果上链。回流的湿实验数据再喂回生成端,让模型学到哪些结构扛过了物理测试,每一轮都从更强的起点开始。他们正在加一台自有的移液机器人来彻底闭合循环。一个反馈信号是'真实分子在实验室里活下来'的自我改进系统,才是别人都在软件里近似模仿的那个真身。
https://x.com/BioAIDevs/status/2062112187649540178
全场最有野心的闭环,而且彻底离开了屏幕。BIOS 跑一条自主生物学流水线:三个生成模型(PXDesign、BoltzGen、RFdiffusion3)每轮产出 5000 个结合体候选,再用打分和分子动力学筛到 10-15 个可行的,委托 Adaptyv Bio 做湿实验合成,通过 x402 机器对机器付款,结果上链。回流的湿实验数据再喂回生成端,让模型学到哪些结构扛过了物理测试,每一轮都从更强的起点开始。他们正在加一台自有的移液机器人来彻底闭合循环。一个反馈信号是'真实分子在实验室里活下来'的自我改进系统,才是别人都在软件里近似模仿的那个真身。
#8
@VukRosic99
https://x.com/VukRosic99/status/2062038511663116613
'token 充裕'论调最纯粹的表达。他有个 MiniMax M3 订阅,token 多到他当成无限且免费,于是给一个 agent 配了块便宜 GPU,让它研究 LLM 和 transformer 架构,然后就放着让它跑。因为预算焦虑没了,agent 在极简硬件上无限期地做自主研究。这是对这里每个案例核心思想的一个糙但有力的证明:当 token 不再稀缺,持续的自主研究就变成了一个人随手挂着跑就行的事。
https://x.com/VukRosic99/status/2062038511663116613
'token 充裕'论调最纯粹的表达。他有个 MiniMax M3 订阅,token 多到他当成无限且免费,于是给一个 agent 配了块便宜 GPU,让它研究 LLM 和 transformer 架构,然后就放着让它跑。因为预算焦虑没了,agent 在极简硬件上无限期地做自主研究。这是对这里每个案例核心思想的一个糙但有力的证明:当 token 不再稀缺,持续的自主研究就变成了一个人随手挂着跑就行的事。
#9
@Blum_OG
https://x.com/Blum_OG/status/2062249214592036973
一个具体的本地自我改进循环,还带真实测得的加速。他的论点是:自我改进的本地 agent 不再需要数据中心硬件了,因为 Hermes Agent、Qwen 3.6 和 DGX Spark 已经凑齐。Hermes 把完成的任务存成 /.hermes/skills/ 里的纯 markdown skill 文件并复用,所以一个月后每个用户的 agent 都和别人分道扬镳了。他说带 20 个以上自建 skill 的 agent 处理类似的未来任务比全新实例快约 40%,用的是三层记忆(持久笔记、可搜索历史、过程性 skill),还提醒 Hermes 至少要 64K context,而 Ollama 默认才 4K。'靠积累的 skill 实现个性化'这条线,是安静却重要的部分。
https://x.com/Blum_OG/status/2062249214592036973
一个具体的本地自我改进循环,还带真实测得的加速。他的论点是:自我改进的本地 agent 不再需要数据中心硬件了,因为 Hermes Agent、Qwen 3.6 和 DGX Spark 已经凑齐。Hermes 把完成的任务存成 /.hermes/skills/ 里的纯 markdown skill 文件并复用,所以一个月后每个用户的 agent 都和别人分道扬镳了。他说带 20 个以上自建 skill 的 agent 处理类似的未来任务比全新实例快约 40%,用的是三层记忆(持久笔记、可搜索历史、过程性 skill),还提醒 Hermes 至少要 64K context,而 Ollama 默认才 4K。'靠积累的 skill 实现个性化'这条线,是安静却重要的部分。
#10
@djgelner
https://x.com/djgelner/status/2062188628822913422
一个利落、值得抄的过夜自我改进范式。每天晚上,一个总控 agent 读完当天所有员工 agent 的对话,找两件事:哪些它本可以做得更好,以及它当初希望一开始就拿到的 context,然后据此在第二天之前改进自己。这是'梦境循环'的说法,对任何会积累交互日志的 agent 群都是个干净的模板。关键解锁是:把一天的对话记录当成可以在夜里免费挖出来的训练信号。
https://x.com/djgelner/status/2062188628822913422
一个利落、值得抄的过夜自我改进范式。每天晚上,一个总控 agent 读完当天所有员工 agent 的对话,找两件事:哪些它本可以做得更好,以及它当初希望一开始就拿到的 context,然后据此在第二天之前改进自己。这是'梦境循环'的说法,对任何会积累交互日志的 agent 群都是个干净的模板。关键解锁是:把一天的对话记录当成可以在夜里免费挖出来的训练信号。
#11
@Everlier
https://x.com/Everlier/status/2062141021899702685
一个真实的多 harness 架构,对任何在搭 autoresearch 基础设施的人都相关。他们的生产平台跑多个可插拔的 harness,核心是一套定制的 agentic loop,同时还能和 Agno、OpenAI Agents SDK、Claude Code SDK、Smolagents 互通。要紧的点是:这个 agentic loop 是可替换的,你不被某一个框架对'agent 该怎么跑'的理解锁死。当 loop 成为竞争的基本单位,这种与 harness 无关的管道,正是让团队能不断试验而不必重写的东西。
https://x.com/Everlier/status/2062141021899702685
一个真实的多 harness 架构,对任何在搭 autoresearch 基础设施的人都相关。他们的生产平台跑多个可插拔的 harness,核心是一套定制的 agentic loop,同时还能和 Agno、OpenAI Agents SDK、Claude Code SDK、Smolagents 互通。要紧的点是:这个 agentic loop 是可替换的,你不被某一个框架对'agent 该怎么跑'的理解锁死。当 loop 成为竞争的基本单位,这种与 harness 无关的管道,正是让团队能不断试验而不必重写的东西。
#12
@MaziyarPanahi
https://x.com/MaziyarPanahi/status/2062231804007129473
一个为了隐私完全在本地设备上跑的非编码 agent loop。OpenMed Agent 是一个终端原生的医疗 CLI,整个 agent loop 都住在本地,瞄准那些想要真智能、又不愿把健康数据传上云的个人。帖子不长,但方向有意义:自主循环不一定意味着云端数据中心,而在医疗这种受监管的领域,把循环留在设备上,才是人们真正会信任的那个版本。
https://x.com/MaziyarPanahi/status/2062231804007129473
一个为了隐私完全在本地设备上跑的非编码 agent loop。OpenMed Agent 是一个终端原生的医疗 CLI,整个 agent loop 都住在本地,瞄准那些想要真智能、又不愿把健康数据传上云的个人。帖子不长,但方向有意义:自主循环不一定意味着云端数据中心,而在医疗这种受监管的领域,把循环留在设备上,才是人们真正会信任的那个版本。
#13
@aug_digitalrain
https://x.com/aug_digitalrain/status/2062157639640056253
一个诚实的负面结果,这比又一个'赢'更稀有、也更有用。他用 Karpathy 的 autoresearch harness,在一个 4 层小 GPT 上做固定五分钟训练、以验证集 bits-per-byte 打分,从《易经》King Wen 卦序的'惊讶度'曲线推出一个学习率扰动,测了三种强度并以随机噪声做对照。King Wen 在每种强度下都输,而且推得越狠越差,随机噪声反倒没事——所以伤害不是来自'扰动'本身,而是 King Wen 那种高方差结构在抽打优化器。他的结论是:只训了五分钟的模型还太早,'打破习惯'帮不上忙。这正是 autoresearch harness 被造出来要支持的那种便宜、快速、可证伪的实验。
https://x.com/aug_digitalrain/status/2062157639640056253
一个诚实的负面结果,这比又一个'赢'更稀有、也更有用。他用 Karpathy 的 autoresearch harness,在一个 4 层小 GPT 上做固定五分钟训练、以验证集 bits-per-byte 打分,从《易经》King Wen 卦序的'惊讶度'曲线推出一个学习率扰动,测了三种强度并以随机噪声做对照。King Wen 在每种强度下都输,而且推得越狠越差,随机噪声反倒没事——所以伤害不是来自'扰动'本身,而是 King Wen 那种高方差结构在抽打优化器。他的结论是:只训了五分钟的模型还太早,'打破习惯'帮不上忙。这正是 autoresearch harness 被造出来要支持的那种便宜、快速、可证伪的实验。
#14
@Kulkunkan_
https://x.com/Kulkunkan_/status/2062260400444375413
一个递归的 prompt 自优化循环,外面裹着一层极度玄学的包装。他分享了一个自我改进的 agent 系统提示词,号称把六个领域的结果推到了 98%。剥掉那层量子意识的外壳,真正的机制是实的:一个 agentic loop(规划、生成、验证边界、优化),加上一步持续自我精炼——每一轮之后,给自己的提示词架构提出 vN+1 的改进,把产出当成带测试和漂移检测的版本化 promptware。神秘主义是噪声,但'每一轮自我改写的提示词'是个反复冒头的范式,扒掉戏服,底下值得认真对待。
https://x.com/Kulkunkan_/status/2062260400444375413
一个递归的 prompt 自优化循环,外面裹着一层极度玄学的包装。他分享了一个自我改进的 agent 系统提示词,号称把六个领域的结果推到了 98%。剥掉那层量子意识的外壳,真正的机制是实的:一个 agentic loop(规划、生成、验证边界、优化),加上一步持续自我精炼——每一轮之后,给自己的提示词架构提出 vN+1 的改进,把产出当成带测试和漂移检测的版本化 promptware。神秘主义是噪声,但'每一轮自我改写的提示词'是个反复冒头的范式,扒掉戏服,底下值得认真对待。
#15
@robemart151295
https://x.com/robemart151295/status/2062320655173865729
一个精炼却切中要害的元研究想法。他提议用 agent 去 auto-research 方法论本身,让循环随着新模型发布不断测试它们,这样产出的论文是关于方法的,而不是绑死在某个模型上的、转瞬即逝的结果。他基本是在喊:谁有富余的 token,放 agent 去研究研究方法论。话就一句,但抓住了一个真实方向:最经久的 autoresearch 目标不是一个结果,而是一个能熬过下一个模型的方法。
https://x.com/robemart151295/status/2062320655173865729
一个精炼却切中要害的元研究想法。他提议用 agent 去 auto-research 方法论本身,让循环随着新模型发布不断测试它们,这样产出的论文是关于方法的,而不是绑死在某个模型上的、转瞬即逝的结果。他基本是在喊:谁有富余的 token,放 agent 去研究研究方法论。话就一句,但抓住了一个真实方向:最经久的 autoresearch 目标不是一个结果,而是一个能熬过下一个模型的方法。
📡 生态产品雷达
生态产品雷达
今天被提到 3 次以上的工具、框架和项目:
Hermes Agent (Nous Research) — 12
Claude Code — 11
OpenClaw — 6
PrimeIntellect — 4
GEPA — 3
SkillOpt — 3
DGX Spark — 3
Qwen 3.6 — 3
今天被提到 3 次以上的工具、框架和项目:
Hermes Agent (Nous Research) — 12
Claude Code — 11
OpenClaw — 6
PrimeIntellect — 4
GEPA — 3
SkillOpt — 3
DGX Spark — 3
Qwen 3.6 — 3
评论