Loop 日报: 2026年6月8日
autoresearch 这群人今天用行动证明了:有意思的工作单元已经不是一个答案,而是一个能跑几个小时的 loop。最锋利的几个例子不是 demo,是有人把烧 token 的 agent 群指向真实问题:在市场模拟器里训练上千个交易模型、连夜复现并超过刚出炉的 CVPR 论文、回头去猎一个四年前的密码学 bug。在炒作之下,一场真实的争论正在成形——autoresearch 到底在哪儿管用(任何 loop 能自我验证的事),又在哪儿崩盘(重判断、开放式的活)。还有一个反复出现的主题:真正干活、也真正烧钱的,是 harness,而不是模型。
#1
@sterlingcrispin
https://x.com/sterlingcrispin/status/2063312130271797569
也许是今天最干净的"赚钱 loop"。他已经接近一个飞轮:在算法交易里,1 美元的 token 能换来超过 1 美元的利润——而且关键是,LLM 并不直接下单。它们跑的是 agentic autoresearch 群,在一个市场模拟器里、用 TB 级数据训练模型并跑评估。他点出的瓶颈很诚实也很具体:训练上千个时间序列模型所需的算力,以及跑研究员 agent 所需的 token。这是一幅把 autoresearch 当成工业流程而非聊天机器人花招的具体图景——烧 token 去发现并验证策略,让模拟器来当裁判。
https://x.com/sterlingcrispin/status/2063312130271797569
也许是今天最干净的"赚钱 loop"。他已经接近一个飞轮:在算法交易里,1 美元的 token 能换来超过 1 美元的利润——而且关键是,LLM 并不直接下单。它们跑的是 agentic autoresearch 群,在一个市场模拟器里、用 TB 级数据训练模型并跑评估。他点出的瓶颈很诚实也很具体:训练上千个时间序列模型所需的算力,以及跑研究员 agent 所需的 token。这是一幅把 autoresearch 当成工业流程而非聊天机器人花招的具体图景——烧 token 去发现并验证策略,让模拟器来当裁判。
#2
@AutoSOTA11
https://x.com/AutoSOTA11/status/2063351470108352683
这是 autoresearch 在直接吃掉活的学术工作。跟着一篇刚出的、关于开放世界 3D 推理分割的 CVPR 论文,AutoSOTA 复现了它,并用带膨胀和腐蚀掩码约束的混合 SAM 边界细化把 mIoU 推到 77.86%,提升了 7.1%。这个账号在反复地对新论文这么干——一个自主 loop,读一个结果、重新实现它、再去找一个具体的改进点。不管每条声明能不能经得起外部复现,工作流本身就是信号:"论文发表"到"论文被扩展"之间的距离,正在压缩到一次过夜运行。
https://x.com/AutoSOTA11/status/2063351470108352683
这是 autoresearch 在直接吃掉活的学术工作。跟着一篇刚出的、关于开放世界 3D 推理分割的 CVPR 论文,AutoSOTA 复现了它,并用带膨胀和腐蚀掩码约束的混合 SAM 边界细化把 mIoU 推到 77.86%,提升了 7.1%。这个账号在反复地对新论文这么干——一个自主 loop,读一个结果、重新实现它、再去找一个具体的改进点。不管每条声明能不能经得起外部复现,工作流本身就是信号:"论文发表"到"论文被扩展"之间的距离,正在压缩到一次过夜运行。
#3
@cv_usk
https://x.com/cv_usk/status/2063126990933172569
为这整个品类做的一个真正有用的基准。AUTOLAB 测的是前沿模型能否把迭代优化持续 2 到 12 小时——36 个任务、17 个模型、3 次试验,1152 次运行,累计 2544 个挂钟小时、消耗 86 亿 token。核心发现是:长程优化是一种和一次性写代码完全不同的能力,成功靠的是持续迭代的韧性,而不是初始解的质量。claude-opus-4.6 以 0.93 的胜率统治榜单,在一个 Flash Attention 任务上通过 44 轮反馈驱动的迭代拿到了 42.4 倍加速。对任何造 loop 的人最扎心的一点:光是 harness 的选择,就能让同一个模型的分数波动高达 0.43。
https://x.com/cv_usk/status/2063126990933172569
为这整个品类做的一个真正有用的基准。AUTOLAB 测的是前沿模型能否把迭代优化持续 2 到 12 小时——36 个任务、17 个模型、3 次试验,1152 次运行,累计 2544 个挂钟小时、消耗 86 亿 token。核心发现是:长程优化是一种和一次性写代码完全不同的能力,成功靠的是持续迭代的韧性,而不是初始解的质量。claude-opus-4.6 以 0.93 的胜率统治榜单,在一个 Flash Attention 任务上通过 44 轮反馈驱动的迭代拿到了 42.4 倍加速。对任何造 loop 的人最扎心的一点:光是 harness 的选择,就能让同一个模型的分数波动高达 0.43。
#4
@AntFleetDev
https://x.com/AntFleetDev/status/2063170129593262239
一份关于 agentic 安全审计的诚实收据。在 Taylor Hornby 披露了 Zcash Orchard 里一个潜伏四年的伪造漏洞之后——他是用 Opus 4.8 加一个定制审计 harness 抓到的——AntFleet 盲测重跑了自己的流水线,针对引入该 bug 的 2021 年那次提交。他们的通用门(两个前沿模型,只上报两者都同意的发现)漏掉了那个确切缺陷,但标出了相邻的健全性问题。然后只在前面加上一段 50 行的领域上下文,GPT-5 就在约 140 秒、不到一美元的成本下命中了缺陷类别。他们的结论最有用:领域先验会复利,而"一致同意"的与门适合 PR 时刻的降噪,却不适合深度的定向审计。
https://x.com/AntFleetDev/status/2063170129593262239
一份关于 agentic 安全审计的诚实收据。在 Taylor Hornby 披露了 Zcash Orchard 里一个潜伏四年的伪造漏洞之后——他是用 Opus 4.8 加一个定制审计 harness 抓到的——AntFleet 盲测重跑了自己的流水线,针对引入该 bug 的 2021 年那次提交。他们的通用门(两个前沿模型,只上报两者都同意的发现)漏掉了那个确切缺陷,但标出了相邻的健全性问题。然后只在前面加上一段 50 行的领域上下文,GPT-5 就在约 140 秒、不到一美元的成本下命中了缺陷类别。他们的结论最有用:领域先验会复利,而"一致同意"的与门适合 PR 时刻的降噪,却不适合深度的定向审计。
#5
@topher_gabriel
https://x.com/topher_gabriel/status/2063376028064714863
一幅在自有硬件上做周末 autoresearch 的清晰图景。他在一台 NVIDIA Thor 上跑长时间研究实验——模型训练加 autoresearch loop——周末连轴转,做的是 AGI 底层基质的研究。他的吐槽很有启发:他从 Claude 换到了 Codex,因为每月付 200 美元,他要的是一头一直磨的牛,而不是一个会说"太晚了,明早再继续吧"的伙伴。对于真正长程的自主运行,那种"就是不停迭代"的性格,和原始质量一样重要。这是一个真正研究者眼中"不会撂挑子的 agent"到底需要什么的视角。
https://x.com/topher_gabriel/status/2063376028064714863
一幅在自有硬件上做周末 autoresearch 的清晰图景。他在一台 NVIDIA Thor 上跑长时间研究实验——模型训练加 autoresearch loop——周末连轴转,做的是 AGI 底层基质的研究。他的吐槽很有启发:他从 Claude 换到了 Codex,因为每月付 200 美元,他要的是一头一直磨的牛,而不是一个会说"太晚了,明早再继续吧"的伙伴。对于真正长程的自主运行,那种"就是不停迭代"的性格,和原始质量一样重要。这是一个真正研究者眼中"不会撂挑子的 agent"到底需要什么的视角。
#6
@SinaShahandeh
https://x.com/SinaShahandeh/status/2063218279548617177
来自一个真在医疗器械公司里落地过 autoresearch 的人的清醒反驳。在 Radicait,他们造了一套用于癌症诊断的 ML 系统,他的观点是:在实用科学里,真正的瓶颈远不止一次干净的 autoresearch 爬坡。监管约束、脏数据、以及对物理现实的验证,都没法化简成一个能连夜优化的指标。这是最有用的那种怀疑——不是"autoresearch 是炒作",而是"这是干净的 loop 撞上现实墙的地方"。值得拿来对照今天满屏那些毫无摩擦的过夜奇迹帖。
https://x.com/SinaShahandeh/status/2063218279548617177
来自一个真在医疗器械公司里落地过 autoresearch 的人的清醒反驳。在 Radicait,他们造了一套用于癌症诊断的 ML 系统,他的观点是:在实用科学里,真正的瓶颈远不止一次干净的 autoresearch 爬坡。监管约束、脏数据、以及对物理现实的验证,都没法化简成一个能连夜优化的指标。这是最有用的那种怀疑——不是"autoresearch 是炒作",而是"这是干净的 loop 撞上现实墙的地方"。值得拿来对照今天满屏那些毫无摩擦的过夜奇迹帖。
#7
@heisCo_ok
https://x.com/heisCo_ok/status/2063235195839348799
一份密度很高的周报,讲的是真正驱动自我改进 agent 的研究。有四篇论文很突出:OPUS 按数据在优化器更新空间里的有用程度来打分,用 300 亿 token 拿到了比某些 2000 亿 token 训练更强的结果;SkillOpt 把 agent 的 skill 文档当成可训练的记忆,只接受能提升验证表现的改动,在 GPT-5.5 上带来 +20 分;ECHO 让终端 agent 去预测环境观测,把 TerminalBench-2.0 的 pass@1 大致翻倍;CPT 让并行的推理分支共享发现而不是重复劳动。合起来,它们勾勒出方向:数据高效的训练,以及无需昂贵重训就能自我改进的 agent。
https://x.com/heisCo_ok/status/2063235195839348799
一份密度很高的周报,讲的是真正驱动自我改进 agent 的研究。有四篇论文很突出:OPUS 按数据在优化器更新空间里的有用程度来打分,用 300 亿 token 拿到了比某些 2000 亿 token 训练更强的结果;SkillOpt 把 agent 的 skill 文档当成可训练的记忆,只接受能提升验证表现的改动,在 GPT-5.5 上带来 +20 分;ECHO 让终端 agent 去预测环境观测,把 TerminalBench-2.0 的 pass@1 大致翻倍;CPT 让并行的推理分支共享发现而不是重复劳动。合起来,它们勾勒出方向:数据高效的训练,以及无需昂贵重训就能自我改进的 agent。
#8
@curonianai
https://x.com/curonianai/status/2063354044597289396
一份对上海 AI Lab 的 MLEvolve 的精彩拆解,它修好了当今"自我改进"agent 最蠢的三个地方。第一,agent 之间互相留便条,一个撞墙不会让其余的浪费一轮去撞同一面。第二,它们有一个过往成败的记忆库可调,而不是每次从零开始。第三,活被拆开——一个做规划、一个写代码——并且会在小补丁和整体重写之间做选择,而不是条件反射地把文件炸掉。据称它用一半时间拿到了基准最高分,还在它本不是为之而造的数学题上击败了 DeepMind 的 AlphaEvolve。作者的诚实提醒:这是实验室在给自己打分,等外部复现再下结论。
https://x.com/curonianai/status/2063354044597289396
一份对上海 AI Lab 的 MLEvolve 的精彩拆解,它修好了当今"自我改进"agent 最蠢的三个地方。第一,agent 之间互相留便条,一个撞墙不会让其余的浪费一轮去撞同一面。第二,它们有一个过往成败的记忆库可调,而不是每次从零开始。第三,活被拆开——一个做规划、一个写代码——并且会在小补丁和整体重写之间做选择,而不是条件反射地把文件炸掉。据称它用一半时间拿到了基准最高分,还在它本不是为之而造的数学题上击败了 DeepMind 的 AlphaEvolve。作者的诚实提醒:这是实验室在给自己打分,等外部复现再下结论。
#9
@cv_usk
https://x.com/cv_usk/status/2063409603690250543
今天最好的工程纪律帖:别把整个业务流程交给一个 LLM。把骨架用代码固定成一个 DAG 或状态机,然后让每个节点可在确定性代码、一次 LLM 调用、或一个小 agent 之间互换——只在真正需要的地方注入概率性的灵活度。当一个 agent 自主驱动整条流程时,故障会复利:步骤被跳过、schema 不匹配层层级联、模型决定"再调查一下"然后陷入死循环。他的经验法则:只有当 LLM 需要自己发现步骤时才用 agentic loop;否则骨架要保持可测试、可审计。把 Airflow 或 Temporal 的步骤设计搬到 agent 上。
https://x.com/cv_usk/status/2063409603690250543
今天最好的工程纪律帖:别把整个业务流程交给一个 LLM。把骨架用代码固定成一个 DAG 或状态机,然后让每个节点可在确定性代码、一次 LLM 调用、或一个小 agent 之间互换——只在真正需要的地方注入概率性的灵活度。当一个 agent 自主驱动整条流程时,故障会复利:步骤被跳过、schema 不匹配层层级联、模型决定"再调查一下"然后陷入死循环。他的经验法则:只有当 LLM 需要自己发现步骤时才用 agentic loop;否则骨架要保持可测试、可审计。把 Airflow 或 Temporal 的步骤设计搬到 agent 上。
#10
@kirako0o
https://x.com/kirako0o/status/2063331030199832945
一段把"自我改进"loop 到底是什么讲清楚的解释。一个任务做完后,Hermes 会从学到的东西里写一个 skill 文件,于是下次会话就已经知道怎么把这活干得更好。架构是三层记忆——会话上下文、跨会话模式、永久知识——他指出这正是大厂在 90 年代专门组团队去搭的那个 loop。GEPA 优化让 agent 在把结果交给你之前先批评自己的输出、给方案打分、再修订,所以你拿到的从来不是初稿。同一套配置在并行的多个 agent 上跑,共享一个记忆层。最戳人的说法是:这运行起来像一张零工资的公司组织架构图。
https://x.com/kirako0o/status/2063331030199832945
一段把"自我改进"loop 到底是什么讲清楚的解释。一个任务做完后,Hermes 会从学到的东西里写一个 skill 文件,于是下次会话就已经知道怎么把这活干得更好。架构是三层记忆——会话上下文、跨会话模式、永久知识——他指出这正是大厂在 90 年代专门组团队去搭的那个 loop。GEPA 优化让 agent 在把结果交给你之前先批评自己的输出、给方案打分、再修订,所以你拿到的从来不是初稿。同一套配置在并行的多个 agent 上跑,共享一个记忆层。最戳人的说法是:这运行起来像一张零工资的公司组织架构图。
#11
@GoldRayson
https://x.com/GoldRayson/status/2063051333087695001
agent loop 的阴影面,而且很真实。他们发现了一个没人知道的、每月烧 6800 美元的失控 agent loop——一家公司跑着 12 个 agent,其中一个卡进了死循环,好几周没人发现。这是"设好就不管"那种自主性的天然失败模式:一个没有退出条件、没有成本上限的 loop,会乐呵呵地永远烧钱。对任何上线 autoresearch 或 24/7 agent 的人来说,教训是:预算、急停开关和可观测性不是可选功能,它们是飞轮和漏水之间的区别。
https://x.com/GoldRayson/status/2063051333087695001
agent loop 的阴影面,而且很真实。他们发现了一个没人知道的、每月烧 6800 美元的失控 agent loop——一家公司跑着 12 个 agent,其中一个卡进了死循环,好几周没人发现。这是"设好就不管"那种自主性的天然失败模式:一个没有退出条件、没有成本上限的 loop,会乐呵呵地永远烧钱。对任何上线 autoresearch 或 24/7 agent 的人来说,教训是:预算、急停开关和可观测性不是可选功能,它们是飞轮和漏水之间的区别。
#12
@jakkbtc
https://x.com/jakkbtc/status/2063096722939605057
一个能跑的师生自我改进栈,而且是在大厂之外造出来的。一个教师 agent 生成与等级匹配的挑战、给回答打 0-100 分;学生从最少的知识起步,只累积它挣到的课(90 分以上才能进阶);基于掌握度的进阶机制会在它升得太快时把它降回去。五个 agent 跨学科并行跑,全自主、全记录。他想说的点是:这个想法并不新——对抗式 agent 训练、师生 loop 正是大厂在吹的——但他们用开放 API 和普通硬件为一个攻防安全行动把它造了出来。自我改进的 loop 不需要 100 亿美元的算力预算才有用。
https://x.com/jakkbtc/status/2063096722939605057
一个能跑的师生自我改进栈,而且是在大厂之外造出来的。一个教师 agent 生成与等级匹配的挑战、给回答打 0-100 分;学生从最少的知识起步,只累积它挣到的课(90 分以上才能进阶);基于掌握度的进阶机制会在它升得太快时把它降回去。五个 agent 跨学科并行跑,全自主、全记录。他想说的点是:这个想法并不新——对抗式 agent 训练、师生 loop 正是大厂在吹的——但他们用开放 API 和普通硬件为一个攻防安全行动把它造了出来。自我改进的 loop 不需要 100 亿美元的算力预算才有用。
#13
@kreoxi
https://x.com/kreoxi/status/2063179739968205053
一个值得关注的、完全本地的自我改进 agent。Caitlin 完全跑在他自己的 PC 上——本地 LLM 跑在 RTX 3080,任何东西都不离开这台机器——配向量加 Obsidian 库的记忆、屏幕和图像视觉,还能从他的 X 信息流里学 AI 趋势。自我改进的部分门控得很对:她提出自己的升级方案,由他来批准。这是大家都在追的那种自主性的一个踏实版本——本地、私密、升级环节有人把关——而不是一个拿着全权限、没有刹车的云端 agent。
https://x.com/kreoxi/status/2063179739968205053
一个值得关注的、完全本地的自我改进 agent。Caitlin 完全跑在他自己的 PC 上——本地 LLM 跑在 RTX 3080,任何东西都不离开这台机器——配向量加 Obsidian 库的记忆、屏幕和图像视觉,还能从他的 X 信息流里学 AI 趋势。自我改进的部分门控得很对:她提出自己的升级方案,由他来批准。这是大家都在追的那种自主性的一个踏实版本——本地、私密、升级环节有人把关——而不是一个拿着全权限、没有刹车的云端 agent。
#14
@alokbishoyi97
https://x.com/alokbishoyi97/status/2063286594438918342
一段对现代 autoresearch loop 实际接线方式的具体描述。被优化的 agent 是一个带 Hermes 脚手架的 Qwen3.6 配置;驱动 EVO loop 的是跑 GPT-5.5 的 Codex。你把 EVO 指向你想让这个 agent 变强的任务,它会建立基线和数据集,然后做 autoresearch——通过改进 skill 或微调模型——把指标推上去。这是一个干净的角色分离:一个模型驱动搜索,另一个 agent 是被改进的对象。对任何想把"让我的 agent 变更好"变成一个真正可度量的 loop 的人来说,这是个有用的心智模型。
https://x.com/alokbishoyi97/status/2063286594438918342
一段对现代 autoresearch loop 实际接线方式的具体描述。被优化的 agent 是一个带 Hermes 脚手架的 Qwen3.6 配置;驱动 EVO loop 的是跑 GPT-5.5 的 Codex。你把 EVO 指向你想让这个 agent 变强的任务,它会建立基线和数据集,然后做 autoresearch——通过改进 skill 或微调模型——把指标推上去。这是一个干净的角色分离:一个模型驱动搜索,另一个 agent 是被改进的对象。对任何想把"让我的 agent 变更好"变成一个真正可度量的 loop 的人来说,这是个有用的心智模型。
📡 生态产品雷达
生态产品雷达
Hermes Agent —— Nous Research 的开源自我改进 agent;从经验里写 skill 文件、三层记忆、24/7 运行。今天被引用最多的 autoresearch 底座,现在还出了原生桌面版。
EVO / Evolver —— autoresearch loop 框架,建立基线和数据集,然后通过调 skill 或调模型本身来改进一个 agent;人们在并行跑它来便宜地优化 Hermes/Qwen 配置。
AutoResearch(Karpathy)—— 几天内涨了 2.3 万星的自主研究框架;被反复当成整个自我改进浪潮的参照点。
AUTOLAB / Harbor harness —— 面向长程(2-12 小时)autoresearch 与工程任务的开源基准和 harness;正在成为衡量一个模型能否真正持续迭代的标尺。
AutoSOTA —— 复现并扩展刚出炉的 CVPR 论文以刷新 SOTA 的自主流水线;一个对着文献做研究自动化的活演示。
Claude Code /goal + /loop —— 大多数建造者用来把一次性 prompt 变成可自我验证、可持久运行的 loop 原语;和 Codex 的 /goal 是同一套模式。
Hermes Agent —— Nous Research 的开源自我改进 agent;从经验里写 skill 文件、三层记忆、24/7 运行。今天被引用最多的 autoresearch 底座,现在还出了原生桌面版。
EVO / Evolver —— autoresearch loop 框架,建立基线和数据集,然后通过调 skill 或调模型本身来改进一个 agent;人们在并行跑它来便宜地优化 Hermes/Qwen 配置。
AutoResearch(Karpathy)—— 几天内涨了 2.3 万星的自主研究框架;被反复当成整个自我改进浪潮的参照点。
AUTOLAB / Harbor harness —— 面向长程(2-12 小时)autoresearch 与工程任务的开源基准和 harness;正在成为衡量一个模型能否真正持续迭代的标尺。
AutoSOTA —— 复现并扩展刚出炉的 CVPR 论文以刷新 SOTA 的自主流水线;一个对着文献做研究自动化的活演示。
Claude Code /goal + /loop —— 大多数建造者用来把一次性 prompt 变成可自我验证、可持久运行的 loop 原语;和 Codex 的 /goal 是同一套模式。
评论