2026年6月5日loop

Loop 日报: 2026-06-05

今天，loop 不再是个比喻，开始留下凭据了。最强的案例共享同一个机制——烧 token 让 agent 给自己打分、改写自己，直到一个可量化的数字动起来：一个 skill 自调优从 0.73 到 0.93，一次 Opus autoresearch 从 53% 抠到 78%、但只有被逼过每个平台期才行，还有一个微软的自我改进循环，给每一次运行都记下计划、脚本、截图和 JSON 证据。前沿正同时往两个方向裂开。一个是逃离数据中心：Mac mini 上本地的 Hermes 加 Qwen 循环靠积累 skill 实现个性化，本地医疗 agent 把整个循环留在设备里保护隐私。另一个干脆离开了软件：一条自主生物学流水线，它的反馈信号是真实分子在湿实验里活下来。大家正在收敛到同一个教训：要自适应的是 harness，不是模型。

💡#1

@omarsar0
https://x.com/omarsar0/status/2062204469538881988
这是今天最干净的自我改进 skill 结果。他把微软的 SkillOpt 框架嫁接到自己的 agent 编排器上，让一个 skill 对着内置测试 harness 自我进化。在他那个论文图表提取的 skill 上——一个相当硬的多模态任务——这个循环把质量从 0.73 推到 0.93，整整 20 分，他说去看抽出来的表格时人都惊了。现在他把同一个自优化循环对准了 agent 模式、工具调用、context 工程、评测乃至 harness 本身。这就是 100 倍智能最直白的机制：烧 token 让 agent 给自己打分、改写自己，直到那个数字动起来。

💡#2

@HenryL_AI
https://x.com/HenryL_AI/status/2062215518216757329
一个该重塑大家对自我改进 agent 看法的硬结果。他们证明，即便是 Opus 驱动的 SOTA 自我改进 agent，在真实世界的任务流上也会退化，因为单一的 auto-harness 会过拟合到过去的模式。他们的解法是一棵按 regime 分支的 harness 树，求解时按任务路由——同样的 LLM、同样的 auto-harness 机制，只是按任务做了专门化。数字很硬：PolyBench 80.9% 对 50.8%，CTF-Dojo 50.2% 对 45.2%，FutureX 49.5% 对 47.5%。最值得引用的是它的论点：要自适应的是 harness，不是模型——这正是这个领域反复重新学习的 autoresearch 教训。

💡#3

@Vvsotnikov
https://x.com/Vvsotnikov/status/2062073965460234371
今天最生动的'token 换智能'对照。在一个噪声很大的 LLM 评审任务上，朴素基线 53%，GEPA 到 67%，而 Opus 4.8 的 autoresearch 是以一种特别像人的方式往上爬：到 58%、放弃，被催继续、到 65%、又放弃，再催，71%，然后 78%。这个循环字面意义上需要被'逼'过每一个平台期，而一被逼，它就直接干翻了 GEPA。结论既别扭又重要：天花板不是模型的能力，而是它继续烧 token 的意愿——显然有人会把这个'催'做成产品。

💡#4

@james_y_zou
https://x.com/james_y_zou/status/2062184563737297038
大多数 autoresearch 系统模拟的是单个研究员；他的团队反其道而行，做了 SimpleTES 来模拟一整个协作的研究社区，回报很具体。在 21 个开放科学问题上拿到新的 SOTA，包括更高效的天体动力学、快 2 倍的 LASSO、更好的量子电路编译。这是最要紧的非编码前沿：自主 agent 跨领域产出真实的科学结果，而不是在某个私有基准上爬坡。'agent 社区'这个框架，是值得抄走的点子。

💡#5

@yuxiangwu_
https://x.com/yuxiangwu_/status/2062250177847562618
最犀利的怀疑派观点，正因如此它的证据砸得更重。他的点是：autoresearch 能在基准上爬坡，但真正的考验是它有没有产出社区真去用的研究。接着他点了个名——Aiden，一个 autoresearch agent，给 Parameter Golf 贡献了 7 项记录，既是头号贡献者又是该社区被引用最多的'研究员'。那不是私有分数，那是被采用，而且这是自主研究的故事第一次挂上了引用数。值得盯的是它能不能跳出一个小众基准、推广开来。

💡#6

@MichaelGannotti
https://x.com/MichaelGannotti/status/2062321573084995862
一个罕见的、来自微软内部的完全可审计自调优工作流。他的 Scout/ClawPilot 助手用 Forgewright（一个建在 OpenClaw 和 Nous Hermes 上的 skill）当每日自我改进循环：每次运行都产出一份计划、可执行脚本、截图、日志和结构化 JSON 证据。它对着冻结的 fixture 跑 SkillOpt 式的调优循环，做有界的修改，按 rubric 给每个版本打分，只有可量化地变好才保留改动，每次晋级都要过一份人审的材料包。打过分的产出再喂进一个每天刷新的竞争态势 dashboard。这就是当你强制它留下纸面痕迹时，有纪律的自我改进该长的样子。

💡#7

@BioAIDevs
https://x.com/BioAIDevs/status/2062112187649540178
全场最有野心的闭环，而且彻底离开了屏幕。BIOS 跑一条自主生物学流水线：三个生成模型（PXDesign、BoltzGen、RFdiffusion3）每轮产出 5000 个结合体候选，再用打分和分子动力学筛到 10-15 个可行的，委托 Adaptyv Bio 做湿实验合成，通过 x402 机器对机器付款，结果上链。回流的湿实验数据再喂回生成端，让模型学到哪些结构扛过了物理测试，每一轮都从更强的起点开始。他们正在加一台自有的移液机器人来彻底闭合循环。一个反馈信号是'真实分子在实验室里活下来'的自我改进系统，才是别人都在软件里近似模仿的那个真身。

💡#8

@VukRosic99
https://x.com/VukRosic99/status/2062038511663116613
'token 充裕'论调最纯粹的表达。他有个 MiniMax M3 订阅，token 多到他当成无限且免费，于是给一个 agent 配了块便宜 GPU，让它研究 LLM 和 transformer 架构，然后就放着让它跑。因为预算焦虑没了，agent 在极简硬件上无限期地做自主研究。这是对这里每个案例核心思想的一个糙但有力的证明：当 token 不再稀缺，持续的自主研究就变成了一个人随手挂着跑就行的事。

💡#9

@Blum_OG
https://x.com/Blum_OG/status/2062249214592036973
一个具体的本地自我改进循环，还带真实测得的加速。他的论点是：自我改进的本地 agent 不再需要数据中心硬件了，因为 Hermes Agent、Qwen 3.6 和 DGX Spark 已经凑齐。Hermes 把完成的任务存成 /.hermes/skills/ 里的纯 markdown skill 文件并复用，所以一个月后每个用户的 agent 都和别人分道扬镳了。他说带 20 个以上自建 skill 的 agent 处理类似的未来任务比全新实例快约 40%，用的是三层记忆（持久笔记、可搜索历史、过程性 skill），还提醒 Hermes 至少要 64K context，而 Ollama 默认才 4K。'靠积累的 skill 实现个性化'这条线，是安静却重要的部分。

💡#10

@djgelner
https://x.com/djgelner/status/2062188628822913422
一个利落、值得抄的过夜自我改进范式。每天晚上，一个总控 agent 读完当天所有员工 agent 的对话，找两件事：哪些它本可以做得更好，以及它当初希望一开始就拿到的 context，然后据此在第二天之前改进自己。这是'梦境循环'的说法，对任何会积累交互日志的 agent 群都是个干净的模板。关键解锁是：把一天的对话记录当成可以在夜里免费挖出来的训练信号。

💡#11

@Everlier
https://x.com/Everlier/status/2062141021899702685
一个真实的多 harness 架构，对任何在搭 autoresearch 基础设施的人都相关。他们的生产平台跑多个可插拔的 harness，核心是一套定制的 agentic loop，同时还能和 Agno、OpenAI Agents SDK、Claude Code SDK、Smolagents 互通。要紧的点是：这个 agentic loop 是可替换的，你不被某一个框架对'agent 该怎么跑'的理解锁死。当 loop 成为竞争的基本单位，这种与 harness 无关的管道，正是让团队能不断试验而不必重写的东西。

💡#12

@MaziyarPanahi
https://x.com/MaziyarPanahi/status/2062231804007129473
一个为了隐私完全在本地设备上跑的非编码 agent loop。OpenMed Agent 是一个终端原生的医疗 CLI，整个 agent loop 都住在本地，瞄准那些想要真智能、又不愿把健康数据传上云的个人。帖子不长，但方向有意义：自主循环不一定意味着云端数据中心，而在医疗这种受监管的领域，把循环留在设备上，才是人们真正会信任的那个版本。

💡#13

@aug_digitalrain
https://x.com/aug_digitalrain/status/2062157639640056253
一个诚实的负面结果，这比又一个'赢'更稀有、也更有用。他用 Karpathy 的 autoresearch harness，在一个 4 层小 GPT 上做固定五分钟训练、以验证集 bits-per-byte 打分，从《易经》King Wen 卦序的'惊讶度'曲线推出一个学习率扰动，测了三种强度并以随机噪声做对照。King Wen 在每种强度下都输，而且推得越狠越差，随机噪声反倒没事——所以伤害不是来自'扰动'本身，而是 King Wen 那种高方差结构在抽打优化器。他的结论是：只训了五分钟的模型还太早，'打破习惯'帮不上忙。这正是 autoresearch harness 被造出来要支持的那种便宜、快速、可证伪的实验。

💡#14

@Kulkunkan_
https://x.com/Kulkunkan_/status/2062260400444375413
一个递归的 prompt 自优化循环，外面裹着一层极度玄学的包装。他分享了一个自我改进的 agent 系统提示词，号称把六个领域的结果推到了 98%。剥掉那层量子意识的外壳，真正的机制是实的：一个 agentic loop（规划、生成、验证边界、优化），加上一步持续自我精炼——每一轮之后，给自己的提示词架构提出 vN+1 的改进，把产出当成带测试和漂移检测的版本化 promptware。神秘主义是噪声，但'每一轮自我改写的提示词'是个反复冒头的范式，扒掉戏服，底下值得认真对待。

💡#15

@robemart151295
https://x.com/robemart151295/status/2062320655173865729
一个精炼却切中要害的元研究想法。他提议用 agent 去 auto-research 方法论本身，让循环随着新模型发布不断测试它们，这样产出的论文是关于方法的，而不是绑死在某个模型上的、转瞬即逝的结果。他基本是在喊：谁有富余的 token，放 agent 去研究研究方法论。话就一句，但抓住了一个真实方向：最经久的 autoresearch 目标不是一个结果，而是一个能熬过下一个模型的方法。

📡 生态产品雷达

生态产品雷达
今天被提到 3 次以上的工具、框架和项目：
Hermes Agent (Nous Research) — 12
Claude Code — 11
OpenClaw — 6
PrimeIntellect — 4
GEPA — 3
SkillOpt — 3
DGX Spark — 3
Qwen 3.6 — 3

← 上一篇

超级用户日报: 2026-06-05

灵感雷达: 2026-06-05

← 返回所有文章

加载中...

Loop 日报: 2026-06-05

相关文章

评论