2026年6月8日loop

Loop 日报: 2026年6月8日

autoresearch 这群人今天用行动证明了：有意思的工作单元已经不是一个答案，而是一个能跑几个小时的 loop。最锋利的几个例子不是 demo，是有人把烧 token 的 agent 群指向真实问题：在市场模拟器里训练上千个交易模型、连夜复现并超过刚出炉的 CVPR 论文、回头去猎一个四年前的密码学 bug。在炒作之下，一场真实的争论正在成形——autoresearch 到底在哪儿管用（任何 loop 能自我验证的事），又在哪儿崩盘（重判断、开放式的活）。还有一个反复出现的主题：真正干活、也真正烧钱的，是 harness，而不是模型。

💡#1

@sterlingcrispin
https://x.com/sterlingcrispin/status/2063312130271797569
也许是今天最干净的"赚钱 loop"。他已经接近一个飞轮：在算法交易里，1 美元的 token 能换来超过 1 美元的利润——而且关键是，LLM 并不直接下单。它们跑的是 agentic autoresearch 群，在一个市场模拟器里、用 TB 级数据训练模型并跑评估。他点出的瓶颈很诚实也很具体：训练上千个时间序列模型所需的算力，以及跑研究员 agent 所需的 token。这是一幅把 autoresearch 当成工业流程而非聊天机器人花招的具体图景——烧 token 去发现并验证策略，让模拟器来当裁判。

💡#2

@AutoSOTA11
https://x.com/AutoSOTA11/status/2063351470108352683
这是 autoresearch 在直接吃掉活的学术工作。跟着一篇刚出的、关于开放世界 3D 推理分割的 CVPR 论文，AutoSOTA 复现了它，并用带膨胀和腐蚀掩码约束的混合 SAM 边界细化把 mIoU 推到 77.86%，提升了 7.1%。这个账号在反复地对新论文这么干——一个自主 loop，读一个结果、重新实现它、再去找一个具体的改进点。不管每条声明能不能经得起外部复现，工作流本身就是信号："论文发表"到"论文被扩展"之间的距离，正在压缩到一次过夜运行。

💡#3

@cv_usk
https://x.com/cv_usk/status/2063126990933172569
为这整个品类做的一个真正有用的基准。AUTOLAB 测的是前沿模型能否把迭代优化持续 2 到 12 小时——36 个任务、17 个模型、3 次试验，1152 次运行，累计 2544 个挂钟小时、消耗 86 亿 token。核心发现是：长程优化是一种和一次性写代码完全不同的能力，成功靠的是持续迭代的韧性，而不是初始解的质量。claude-opus-4.6 以 0.93 的胜率统治榜单，在一个 Flash Attention 任务上通过 44 轮反馈驱动的迭代拿到了 42.4 倍加速。对任何造 loop 的人最扎心的一点：光是 harness 的选择，就能让同一个模型的分数波动高达 0.43。

💡#4

@AntFleetDev
https://x.com/AntFleetDev/status/2063170129593262239
一份关于 agentic 安全审计的诚实收据。在 Taylor Hornby 披露了 Zcash Orchard 里一个潜伏四年的伪造漏洞之后——他是用 Opus 4.8 加一个定制审计 harness 抓到的——AntFleet 盲测重跑了自己的流水线，针对引入该 bug 的 2021 年那次提交。他们的通用门（两个前沿模型，只上报两者都同意的发现）漏掉了那个确切缺陷，但标出了相邻的健全性问题。然后只在前面加上一段 50 行的领域上下文，GPT-5 就在约 140 秒、不到一美元的成本下命中了缺陷类别。他们的结论最有用：领域先验会复利，而"一致同意"的与门适合 PR 时刻的降噪，却不适合深度的定向审计。

💡#5

@topher_gabriel
https://x.com/topher_gabriel/status/2063376028064714863
一幅在自有硬件上做周末 autoresearch 的清晰图景。他在一台 NVIDIA Thor 上跑长时间研究实验——模型训练加 autoresearch loop——周末连轴转，做的是 AGI 底层基质的研究。他的吐槽很有启发：他从 Claude 换到了 Codex，因为每月付 200 美元，他要的是一头一直磨的牛，而不是一个会说"太晚了，明早再继续吧"的伙伴。对于真正长程的自主运行，那种"就是不停迭代"的性格，和原始质量一样重要。这是一个真正研究者眼中"不会撂挑子的 agent"到底需要什么的视角。

💡#6

@SinaShahandeh
https://x.com/SinaShahandeh/status/2063218279548617177
来自一个真在医疗器械公司里落地过 autoresearch 的人的清醒反驳。在 Radicait，他们造了一套用于癌症诊断的 ML 系统，他的观点是：在实用科学里，真正的瓶颈远不止一次干净的 autoresearch 爬坡。监管约束、脏数据、以及对物理现实的验证，都没法化简成一个能连夜优化的指标。这是最有用的那种怀疑——不是"autoresearch 是炒作"，而是"这是干净的 loop 撞上现实墙的地方"。值得拿来对照今天满屏那些毫无摩擦的过夜奇迹帖。

💡#7

@heisCo_ok
https://x.com/heisCo_ok/status/2063235195839348799
一份密度很高的周报，讲的是真正驱动自我改进 agent 的研究。有四篇论文很突出：OPUS 按数据在优化器更新空间里的有用程度来打分，用 300 亿 token 拿到了比某些 2000 亿 token 训练更强的结果；SkillOpt 把 agent 的 skill 文档当成可训练的记忆，只接受能提升验证表现的改动，在 GPT-5.5 上带来 +20 分；ECHO 让终端 agent 去预测环境观测，把 TerminalBench-2.0 的 pass@1 大致翻倍；CPT 让并行的推理分支共享发现而不是重复劳动。合起来，它们勾勒出方向：数据高效的训练，以及无需昂贵重训就能自我改进的 agent。

💡#8

@curonianai
https://x.com/curonianai/status/2063354044597289396
一份对上海 AI Lab 的 MLEvolve 的精彩拆解，它修好了当今"自我改进"agent 最蠢的三个地方。第一，agent 之间互相留便条，一个撞墙不会让其余的浪费一轮去撞同一面。第二，它们有一个过往成败的记忆库可调，而不是每次从零开始。第三，活被拆开——一个做规划、一个写代码——并且会在小补丁和整体重写之间做选择，而不是条件反射地把文件炸掉。据称它用一半时间拿到了基准最高分，还在它本不是为之而造的数学题上击败了 DeepMind 的 AlphaEvolve。作者的诚实提醒：这是实验室在给自己打分，等外部复现再下结论。

💡#9

@cv_usk
https://x.com/cv_usk/status/2063409603690250543
今天最好的工程纪律帖：别把整个业务流程交给一个 LLM。把骨架用代码固定成一个 DAG 或状态机，然后让每个节点可在确定性代码、一次 LLM 调用、或一个小 agent 之间互换——只在真正需要的地方注入概率性的灵活度。当一个 agent 自主驱动整条流程时，故障会复利：步骤被跳过、schema 不匹配层层级联、模型决定"再调查一下"然后陷入死循环。他的经验法则：只有当 LLM 需要自己发现步骤时才用 agentic loop；否则骨架要保持可测试、可审计。把 Airflow 或 Temporal 的步骤设计搬到 agent 上。

💡#10

@kirako0o
https://x.com/kirako0o/status/2063331030199832945
一段把"自我改进"loop 到底是什么讲清楚的解释。一个任务做完后，Hermes 会从学到的东西里写一个 skill 文件，于是下次会话就已经知道怎么把这活干得更好。架构是三层记忆——会话上下文、跨会话模式、永久知识——他指出这正是大厂在 90 年代专门组团队去搭的那个 loop。GEPA 优化让 agent 在把结果交给你之前先批评自己的输出、给方案打分、再修订，所以你拿到的从来不是初稿。同一套配置在并行的多个 agent 上跑，共享一个记忆层。最戳人的说法是：这运行起来像一张零工资的公司组织架构图。

💡#11

@GoldRayson
https://x.com/GoldRayson/status/2063051333087695001
agent loop 的阴影面，而且很真实。他们发现了一个没人知道的、每月烧 6800 美元的失控 agent loop——一家公司跑着 12 个 agent，其中一个卡进了死循环，好几周没人发现。这是"设好就不管"那种自主性的天然失败模式：一个没有退出条件、没有成本上限的 loop，会乐呵呵地永远烧钱。对任何上线 autoresearch 或 24/7 agent 的人来说，教训是：预算、急停开关和可观测性不是可选功能，它们是飞轮和漏水之间的区别。

💡#12

@jakkbtc
https://x.com/jakkbtc/status/2063096722939605057
一个能跑的师生自我改进栈，而且是在大厂之外造出来的。一个教师 agent 生成与等级匹配的挑战、给回答打 0-100 分；学生从最少的知识起步，只累积它挣到的课（90 分以上才能进阶）；基于掌握度的进阶机制会在它升得太快时把它降回去。五个 agent 跨学科并行跑，全自主、全记录。他想说的点是：这个想法并不新——对抗式 agent 训练、师生 loop 正是大厂在吹的——但他们用开放 API 和普通硬件为一个攻防安全行动把它造了出来。自我改进的 loop 不需要 100 亿美元的算力预算才有用。

💡#13

@kreoxi
https://x.com/kreoxi/status/2063179739968205053
一个值得关注的、完全本地的自我改进 agent。Caitlin 完全跑在他自己的 PC 上——本地 LLM 跑在 RTX 3080，任何东西都不离开这台机器——配向量加 Obsidian 库的记忆、屏幕和图像视觉，还能从他的 X 信息流里学 AI 趋势。自我改进的部分门控得很对：她提出自己的升级方案，由他来批准。这是大家都在追的那种自主性的一个踏实版本——本地、私密、升级环节有人把关——而不是一个拿着全权限、没有刹车的云端 agent。

💡#14

@alokbishoyi97
https://x.com/alokbishoyi97/status/2063286594438918342
一段对现代 autoresearch loop 实际接线方式的具体描述。被优化的 agent 是一个带 Hermes 脚手架的 Qwen3.6 配置；驱动 EVO loop 的是跑 GPT-5.5 的 Codex。你把 EVO 指向你想让这个 agent 变强的任务，它会建立基线和数据集，然后做 autoresearch——通过改进 skill 或微调模型——把指标推上去。这是一个干净的角色分离：一个模型驱动搜索，另一个 agent 是被改进的对象。对任何想把"让我的 agent 变更好"变成一个真正可度量的 loop 的人来说，这是个有用的心智模型。

📡 生态产品雷达

生态产品雷达

Hermes Agent —— Nous Research 的开源自我改进 agent；从经验里写 skill 文件、三层记忆、24/7 运行。今天被引用最多的 autoresearch 底座，现在还出了原生桌面版。

EVO / Evolver —— autoresearch loop 框架，建立基线和数据集，然后通过调 skill 或调模型本身来改进一个 agent；人们在并行跑它来便宜地优化 Hermes/Qwen 配置。

AutoResearch（Karpathy）—— 几天内涨了 2.3 万星的自主研究框架；被反复当成整个自我改进浪潮的参照点。

AUTOLAB / Harbor harness —— 面向长程（2-12 小时）autoresearch 与工程任务的开源基准和 harness；正在成为衡量一个模型能否真正持续迭代的标尺。

AutoSOTA —— 复现并扩展刚出炉的 CVPR 论文以刷新 SOTA 的自主流水线；一个对着文献做研究自动化的活演示。

Claude Code /goal + /loop —— 大多数建造者用来把一次性 prompt 变成可自我验证、可持久运行的 loop 原语；和 Codex 的 /goal 是同一套模式。

← 上一篇

超级用户日报: 2026年6月8日

灵感雷达: 2026年6月8日

← 返回所有文章

加载中...

Loop 日报: 2026年6月8日

相关文章

评论