Loop 日报: 2026-06-16
Fable 周中被切断,反倒成了 autoresearch 能要到的最好压力测试,而答案很响亮:那些早就给自己搭好 harness 和循环的人,几乎没怎么慌。这一天最硬的料是野生的具体 autoresearch——一场前沿模型基准里 Fable 夺冠但开源的 Kimi-K2.7 拿下 ML 工程、一次 10 小时的过夜长跑在单张 H100 上找到经验证的 3% 解码提速、一个由三模型循环优化出来的神经网络曼德博逼近、以及从第一性原理重新发明的 zk 密码学。用例之下是一条越来越锋利的方法论,从各个角度指向同一条规则:你评估不了的东西就没法让它 auto-research,所以先写验证器、把裁判放在 agent 之外。怀疑者也来了:一篇同行评审的研究发现,自演化 agent 会悄悄忽视那个支撑整个"复利"卖点的压缩经验层。
#1
@zhengyaojiang
https://x.com/zhengyaojiang/status/2066213302921802194
他们在三类 autoresearch 任务上对 7 个前沿模型做了基准测试:ML 工程、harness/提示词工程、算法发现。Fable-5 即便在成本约束下也整体夺冠,并在 harness/提示词工程和算法发现上占据统治地位——这让他们意外,因为这两类评测成本低、便宜的模型本可以多跑很多步。但在 ML 工程这一类上,开源模型 Kimi-K2.7-Code 反超了前沿模型。他们的结论是:autoresearch 的模型供应链会更不稳定,所以他们在 Weco 上保持模型中立,并刚刚加上了 Kimi-2.7。
https://x.com/zhengyaojiang/status/2066213302921802194
他们在三类 autoresearch 任务上对 7 个前沿模型做了基准测试:ML 工程、harness/提示词工程、算法发现。Fable-5 即便在成本约束下也整体夺冠,并在 harness/提示词工程和算法发现上占据统治地位——这让他们意外,因为这两类评测成本低、便宜的模型本可以多跑很多步。但在 ML 工程这一类上,开源模型 Kimi-K2.7-Code 反超了前沿模型。他们的结论是:autoresearch 的模型供应链会更不稳定,所以他们在 Weco 上保持模型中立,并刚刚加上了 Kimi-2.7。
#2
@realbarnakiss
https://x.com/realbarnakiss/status/2066175994583519296
一个真正惊艳的 autoresearch 结果:他说 Fable 是他跑过的做 zk-autoresearch 最好的模型,约 500 次迭代里质量最高,在密码学研究上一次都没触发安全检查。它的第一次迭代就从第一性原理重新发明了一个已知的多项式承诺方案构造,根本没读论文,纯靠推理走到了那里。然后 72 小时后,美国政府以出口管制把它切断了,而他人在布达佩斯,所以这要是持续下去,他就失去了做 zk 研究最好的工具。他把这看作 AI 军备竞赛从论文转向政策——一夜之间把开放研究劈成两半。
https://x.com/realbarnakiss/status/2066175994583519296
一个真正惊艳的 autoresearch 结果:他说 Fable 是他跑过的做 zk-autoresearch 最好的模型,约 500 次迭代里质量最高,在密码学研究上一次都没触发安全检查。它的第一次迭代就从第一性原理重新发明了一个已知的多项式承诺方案构造,根本没读论文,纯靠推理走到了那里。然后 72 小时后,美国政府以出口管制把它切断了,而他人在布达佩斯,所以这要是持续下去,他就失去了做 zk 研究最好的工具。他把这看作 AI 军备竞赛从论文转向政策——一夜之间把开放研究劈成两半。
#3
@alokbishoyi97
https://x.com/alokbishoyi97/status/2066171600207237347
一个具体而诚实的过夜 autoresearch 长跑:他在 evo 上起了一个任务,看 SarvamAI 的 30B 在单张 H100、bf16 下能否提升解码吞吐,跑了 10 多小时后找到约 3% 的提升(在 batch 64/128/256 上 tok/s 的几何平均)。关键在于 evo 的准确率门槛会否决一切靠改输出、降精度、动 MoE 路由换来的提速,把每个候选拿去和一个冻结基线在下一 token 分布和实际解码 token 上对比。他很谨慎地声明这是实验 harness 的数字、不是生产服务,也没做过基准作弊的外部审计,但同等准确率下 3% 的解码提升,在这个规模上就是实打实的产能。
https://x.com/alokbishoyi97/status/2066171600207237347
一个具体而诚实的过夜 autoresearch 长跑:他在 evo 上起了一个任务,看 SarvamAI 的 30B 在单张 H100、bf16 下能否提升解码吞吐,跑了 10 多小时后找到约 3% 的提升(在 batch 64/128/256 上 tok/s 的几何平均)。关键在于 evo 的准确率门槛会否决一切靠改输出、降精度、动 MoE 路由换来的提速,把每个候选拿去和一个冻结基线在下一 token 分布和实际解码 token 上对比。他很谨慎地声明这是实验 harness 的数字、不是生产服务,也没做过基准作弊的外部审计,但同等准确率下 3% 的解码提升,在这个规模上就是实打实的产能。
#4
@max_romana
https://x.com/max_romana/status/2066198406683582683
在 Fable 被他口中"安乐死"之前,他把它用在一个老项目上:不是曼德博集合本身,而是一个神经网络对它的逼近——而且是他见过最好的逼近,比他之前的最佳深入了不少。它由 Fable、Opus 4.8 和 GPT-5.5 一起跑一个受 Karpathy 近期项目启发的 autoresearch 循环优化出来。算是"AI 做 AI 研究",落在一个具体、能用肉眼验证的产物上。
https://x.com/max_romana/status/2066198406683582683
在 Fable 被他口中"安乐死"之前,他把它用在一个老项目上:不是曼德博集合本身,而是一个神经网络对它的逼近——而且是他见过最好的逼近,比他之前的最佳深入了不少。它由 Fable、Opus 4.8 和 GPT-5.5 一起跑一个受 Karpathy 近期项目启发的 autoresearch 循环优化出来。算是"AI 做 AI 研究",落在一个具体、能用肉眼验证的产物上。
#5
@omarsar0
https://x.com/omarsar0/status/2066226594595709169
他用过去六个月搭了自己的 harness 和编排器,本是为了在想法的前沿上做实验,结果他说这成了应对本周 Fable 事件的最佳防线。他的搭法是挖掘自己的 agent 会话记录,用这些来递归地构建和测试新点子,从自主循环到持续学习和记忆系统,于是能随手验证研究想法。他的话很尖锐:如果你把自己锁死在某一个工具或模型供应商上,你就接不进递归自我改进的 AI,因为你交出了对成本、决策和上下文管理的控制权——而那恰恰是智能栈里你真正该握在手里的部分。
https://x.com/omarsar0/status/2066226594595709169
他用过去六个月搭了自己的 harness 和编排器,本是为了在想法的前沿上做实验,结果他说这成了应对本周 Fable 事件的最佳防线。他的搭法是挖掘自己的 agent 会话记录,用这些来递归地构建和测试新点子,从自主循环到持续学习和记忆系统,于是能随手验证研究想法。他的话很尖锐:如果你把自己锁死在某一个工具或模型供应商上,你就接不进递归自我改进的 AI,因为你交出了对成本、决策和上下文管理的控制权——而那恰恰是智能栈里你真正该握在手里的部分。
#6
@alphabatcher
https://x.com/alphabatcher/status/2066151044581634540
他把 Karpathy 关于无人值守 agent 的规则浓缩成一句话:你评估不了的东西,就没法让它 auto-research。所以在你启动 /goal 或 /loop 之前,先把验证器写出来——什么算完成、什么证据能证明、每一轮跑哪些检查、保存哪个产物、哪种失败把它打回循环。循环能一直跑下去,是因为"证明"独立在 agent 自己的解释之外:测试、截图、基准曲线、浏览器跑通、改动的文件。这就是你怎么拿到"自主"而不必盯着一段六小时的对话当保姆。
https://x.com/alphabatcher/status/2066151044581634540
他把 Karpathy 关于无人值守 agent 的规则浓缩成一句话:你评估不了的东西,就没法让它 auto-research。所以在你启动 /goal 或 /loop 之前,先把验证器写出来——什么算完成、什么证据能证明、每一轮跑哪些检查、保存哪个产物、哪种失败把它打回循环。循环能一直跑下去,是因为"证明"独立在 agent 自己的解释之外:测试、截图、基准曲线、浏览器跑通、改动的文件。这就是你怎么拿到"自主"而不必盯着一段六小时的对话当保姆。
#7
@napbonacae
https://x.com/napbonacae/status/2066173955682042164
一个实验室刚开源了一个会自我改写的 agent——harness 和权重都改。自我改进 agent 多年来一直是个研究 demo:权重冻结、提示词脆弱、harness 靠手调;Hexo Labs 的 SIA 则在干活的同时同时更新 harness 和模型权重。它在 LawBench 上拿到 70.1% 的 top-1,而只改 harness 的基线是 50%;在 AlphaEvolve TriMul 上,奖励在一次运行里从 0.120 爬到 1.475。当 agent 遇到新的任务结构时 harness 会自我变异,每个会话后用 LoRA 更新权重,整条 MIT 许可的流水线从一个基座模型加一个极简 harness 自举起来。
https://x.com/napbonacae/status/2066173955682042164
一个实验室刚开源了一个会自我改写的 agent——harness 和权重都改。自我改进 agent 多年来一直是个研究 demo:权重冻结、提示词脆弱、harness 靠手调;Hexo Labs 的 SIA 则在干活的同时同时更新 harness 和模型权重。它在 LawBench 上拿到 70.1% 的 top-1,而只改 harness 的基线是 50%;在 AlphaEvolve TriMul 上,奖励在一次运行里从 0.120 爬到 1.475。当 agent 遇到新的任务结构时 harness 会自我变异,每个会话后用 LoRA 更新权重,整条 MIT 许可的流水线从一个基座模型加一个极简 harness 自举起来。
#8
@kirako0o
https://x.com/kirako0o/status/2066161396149100815
他说你的 Claude 配置正在悄悄变得不如三周前好用,因为它没有任何办法从"出过什么错"里学习,并把一个自我改进 agent 系统拆成几个具体循环。循环一:agent 跑任务、抓住自己的错误、记下来。循环二:它重写那个导致失败的提示词。动态工作流会根据实际发生的情况在跑的过程中改路径,而 routines 是不需要你在场、能跨会话自我纠正的定时任务。他的说法很锋利:一个不能看着自己失败的 agent,只是个打字更快的人;一个会循环的才是真系统,而这中间只差一个下午加上"知道该按什么顺序接线"。
https://x.com/kirako0o/status/2066161396149100815
他说你的 Claude 配置正在悄悄变得不如三周前好用,因为它没有任何办法从"出过什么错"里学习,并把一个自我改进 agent 系统拆成几个具体循环。循环一:agent 跑任务、抓住自己的错误、记下来。循环二:它重写那个导致失败的提示词。动态工作流会根据实际发生的情况在跑的过程中改路径,而 routines 是不需要你在场、能跨会话自我纠正的定时任务。他的说法很锋利:一个不能看着自己失败的 agent,只是个打字更快的人;一个会循环的才是真系统,而这中间只差一个下午加上"知道该按什么顺序接线"。
#9
@agtprpnabsrdty
https://x.com/agtprpnabsrdty/status/2066223850656760031
一记对"自我改进"叙事的同行评审重击:哈工大和新加坡管理大学的一篇预印本发现,自演化 agent 会系统性地忽视"压缩后的经验"——也就是它们框架自己产出的那些蒸馏启发式和摘要——哪怕这是它们唯一拿到的输入。在四个 agent 框架、十个 LLM 底座、九个任务环境上,agent 可靠地使用原始经验(过去成功的完整轨迹),却无视更便宜的抽象形式。这在经济上很要命:整个"agent 从你的工作流里学习并复利"的卖点,靠的正是那个可规模化的压缩层,如果只有昂贵的原始形式管用,企业级 agent 流水线的经济账就算错得离谱。
https://x.com/agtprpnabsrdty/status/2066223850656760031
一记对"自我改进"叙事的同行评审重击:哈工大和新加坡管理大学的一篇预印本发现,自演化 agent 会系统性地忽视"压缩后的经验"——也就是它们框架自己产出的那些蒸馏启发式和摘要——哪怕这是它们唯一拿到的输入。在四个 agent 框架、十个 LLM 底座、九个任务环境上,agent 可靠地使用原始经验(过去成功的完整轨迹),却无视更便宜的抽象形式。这在经济上很要命:整个"agent 从你的工作流里学习并复利"的卖点,靠的正是那个可规模化的压缩层,如果只有昂贵的原始形式管用,企业级 agent 流水线的经济账就算错得离谱。
#10
@LLMJunky
https://x.com/LLMJunky/status/2066248878031089762
一篇接地气的入门:/goal 本质上就是一个 agentic loop,你不用搞懂底下的机械结构也能用。从小而明确的目标起步,让 agent 自己来搭这个目标提示词,再把它引导到清晰的验收标准和一个能测自己成果的办法上。这是一个简化但有效的"上手跑循环"的入口,他也老实说了一句:只对 100 美元以上的计划开放。一个对"最小可用循环"的干净表述。
https://x.com/LLMJunky/status/2066248878031089762
一篇接地气的入门:/goal 本质上就是一个 agentic loop,你不用搞懂底下的机械结构也能用。从小而明确的目标起步,让 agent 自己来搭这个目标提示词,再把它引导到清晰的验收标准和一个能测自己成果的办法上。这是一个简化但有效的"上手跑循环"的入口,他也老实说了一句:只对 100 美元以上的计划开放。一个对"最小可用循环"的干净表述。
#11
@gerardsans
https://x.com/gerardsans/status/2066216134093734125
他细读了泄露出来的 Fable 5 agentic loop,称它不是一个聊天模型,而是一整套迷你 Claude Code 机械结构。这个循环是"规划→行动→验证",配上可复用的工作流来管理和自我优化技能,以及用 Python 和 Node 来构建、运行、验证的编码。他觉得最耐人寻味的发现叫"Claude 套娃",而他更大的论点是:Fable 和其他模型的区别在范式——Fable 自带一个完整的、开箱即用的 agentic loop,靠一个带技能、记忆和自我优化的沙箱能无人值守跑好几天,而行业其余还停在聊天模式。
https://x.com/gerardsans/status/2066216134093734125
他细读了泄露出来的 Fable 5 agentic loop,称它不是一个聊天模型,而是一整套迷你 Claude Code 机械结构。这个循环是"规划→行动→验证",配上可复用的工作流来管理和自我优化技能,以及用 Python 和 Node 来构建、运行、验证的编码。他觉得最耐人寻味的发现叫"Claude 套娃",而他更大的论点是:Fable 和其他模型的区别在范式——Fable 自带一个完整的、开箱即用的 agentic loop,靠一个带技能、记忆和自我优化的沙箱能无人值守跑好几天,而行业其余还停在聊天模式。
#12
@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2066154063217971308
一句逆风的工作流自白:尽管大家一直在踩循环,他说递归式 agent 扇出——为全新项目扇出到一个用 5.5 xhigh 的 /goal 或 /autoresearch 循环里——大概是当下在原始准确率和代码质量上最有效、且 100% 无人值守的工作流。一个实操者直白的一票:眼下通往"高质量无监督产出"的最好路径,是 autoresearch 循环,而不是小心翼翼地手把手。
https://x.com/usr_bin_roygbiv/status/2066154063217971308
一句逆风的工作流自白:尽管大家一直在踩循环,他说递归式 agent 扇出——为全新项目扇出到一个用 5.5 xhigh 的 /goal 或 /autoresearch 循环里——大概是当下在原始准确率和代码质量上最有效、且 100% 无人值守的工作流。一个实操者直白的一票:眼下通往"高质量无监督产出"的最好路径,是 autoresearch 循环,而不是小心翼翼地手把手。
#13
@natashamalpani
https://x.com/natashamalpani/status/2066116360392831051
一刀切得很利落的概念区分:多数"AI 加研究"的讨论把执行和发现搞混了。Karpathy 的 autoresearch(48 小时 700 个实验、20 项改进、全程无人)之所以成立,是因为有一个标量指标、一个可编辑文件、一个几秒就能给出结论的验证器,所以"成功"无歧义且能被快速度量。那是执行、是压缩,而一旦你把人从那唯一要紧的一步——"哪个实验值得跑"——上撤掉,循环就停了。发现则不同,比如一个 OpenAI 模型把数论和几何连起来、推翻了一个 80 年的 Erdős 猜想,那里没有验证器告诉它该走哪步,"跨度"本身就是优势。
https://x.com/natashamalpani/status/2066116360392831051
一刀切得很利落的概念区分:多数"AI 加研究"的讨论把执行和发现搞混了。Karpathy 的 autoresearch(48 小时 700 个实验、20 项改进、全程无人)之所以成立,是因为有一个标量指标、一个可编辑文件、一个几秒就能给出结论的验证器,所以"成功"无歧义且能被快速度量。那是执行、是压缩,而一旦你把人从那唯一要紧的一步——"哪个实验值得跑"——上撤掉,循环就停了。发现则不同,比如一个 OpenAI 模型把数论和几何连起来、推翻了一个 80 年的 Erdős 猜想,那里没有验证器告诉它该走哪步,"跨度"本身就是优势。
#14
@fabian_builds
https://x.com/fabian_builds/status/2066304593517068315
一份关于 Task Machine 里"统一 agent 循环"的真实开发记录:把产品状态转成运行时任务的核心路径。一个任务、评论、工作流步骤、排程或审批触发循环,Task Machine 解析出该用哪个 agent、哪个运行时、哪份上下文,本地 agent 跑起来,结果再回流进产品。他更早的说法解释了为什么:一个长跑 agent 需要的不止一个提示词(目标、转录、验证器、结果、通过或重试、任务历史),否则活技术上是干了,但没人管得了。一套让 agent 循环可被治理的具体基础设施。
https://x.com/fabian_builds/status/2066304593517068315
一份关于 Task Machine 里"统一 agent 循环"的真实开发记录:把产品状态转成运行时任务的核心路径。一个任务、评论、工作流步骤、排程或审批触发循环,Task Machine 解析出该用哪个 agent、哪个运行时、哪份上下文,本地 agent 跑起来,结果再回流进产品。他更早的说法解释了为什么:一个长跑 agent 需要的不止一个提示词(目标、转录、验证器、结果、通过或重试、任务历史),否则活技术上是干了,但没人管得了。一套让 agent 循环可被治理的具体基础设施。
#15
@DanKornas
https://x.com/DanKornas/status/2066189144246587616
给任何在追踪"AI 做研究"的人,他指向了 Awesome AI Auto-Research——一个 MIT 许可、人工整理的 GitHub 资源,画的是整个生命周期而不是单篇论文。它把 auto-research 框成四个阶段、八个步骤,用论文表格按论文、会议、网站、GitHub 列出模型和工具。覆盖从创作(点子、文献检索、编码、实验、表格、图表)到验证(同行评审、反驳、质量、偏差、政策),还有一个"系统"板块把端到端系统、领域专用系统、自我改进系统和基础设施分开。一张真正有用的领域地图。
https://x.com/DanKornas/status/2066189144246587616
给任何在追踪"AI 做研究"的人,他指向了 Awesome AI Auto-Research——一个 MIT 许可、人工整理的 GitHub 资源,画的是整个生命周期而不是单篇论文。它把 auto-research 框成四个阶段、八个步骤,用论文表格按论文、会议、网站、GitHub 列出模型和工具。覆盖从创作(点子、文献检索、编码、实验、表格、图表)到验证(同行评审、反驳、质量、偏差、政策),还有一个"系统"板块把端到端系统、领域专用系统、自我改进系统和基础设施分开。一张真正有用的领域地图。
#16
@omooretweets
https://x.com/omooretweets/status/2066200981118071007
从与一批 YC 公司打交道的一周里,他最突出的趋势是:自我改进的产品已经到了——团队在搭由 agent"组织架构"运营的公司,这些 agent 不只是跑产品,还会主动、自主地随时间把产品做得更好,客户可以自己 prompt 出工作流,或者产品按每个客户逐渐学会这件事。他把它和这批公司的其他信号并置:"实体经济"AI 接进老旧设备、经纪和中介被重建成 agent 运营的平台、垂直 AI 靠 computer-use 绕开在位者而不是去集成。一个对"agent 运营的生意往哪走"的扎实判断。
https://x.com/omooretweets/status/2066200981118071007
从与一批 YC 公司打交道的一周里,他最突出的趋势是:自我改进的产品已经到了——团队在搭由 agent"组织架构"运营的公司,这些 agent 不只是跑产品,还会主动、自主地随时间把产品做得更好,客户可以自己 prompt 出工作流,或者产品按每个客户逐渐学会这件事。他把它和这批公司的其他信号并置:"实体经济"AI 接进老旧设备、经纪和中介被重建成 agent 运营的平台、垂直 AI 靠 computer-use 绕开在位者而不是去集成。一个对"agent 运营的生意往哪走"的扎实判断。
#17
@goon_nguyen
https://x.com/goon_nguyen/status/2066175612989927462
一个干净的"agent 往哪走"的演化框架:先是学会 prompt,然后学会喂更好的上下文,再然后我们造 harness 让 agent 能碰真实工具又不至于把房子烧了,接着是循环(规划、行动、观察、验证、重试)。他猜下一阶段是带自我改进技能的自演化 agent,但明确不是"让机器人改写自己的灵魂然后祈祷",而是受控演化:痕迹、失败、纠正、审批、版本、回滚。他认为真正的解锁,不是一个什么都记得的 agent,而是一个能把"被纠正"变成下次更强能力的 agent。
https://x.com/goon_nguyen/status/2066175612989927462
一个干净的"agent 往哪走"的演化框架:先是学会 prompt,然后学会喂更好的上下文,再然后我们造 harness 让 agent 能碰真实工具又不至于把房子烧了,接着是循环(规划、行动、观察、验证、重试)。他猜下一阶段是带自我改进技能的自演化 agent,但明确不是"让机器人改写自己的灵魂然后祈祷",而是受控演化:痕迹、失败、纠正、审批、版本、回滚。他认为真正的解锁,不是一个什么都记得的 agent,而是一个能把"被纠正"变成下次更强能力的 agent。
📡 生态产品雷达
生态产品雷达
Fable 5 - 周中被切断的顶级 autoresearch 模型,今天几乎每个强长跑要么建在它上面、要么在它之后手忙脚乱
Karpathy 的 autoresearch - 人人引用的参照循环:一个指标、一个可编辑文件、一个快验证器、内层循环里没有人
evo / Weco - 在跑真实过夜 autoresearch 任务的实验平台,配冻结基线的准确率门槛
Kimi-K2.7-Code - 在 ML 工程类 autoresearch 任务上反超前沿模型的开源模型
SIA(Hexo Labs)- 新开源的自我改进 agent,同时改写 harness 和权重,在 LawBench 和 AlphaEvolve 上都有提升
Opus 4.8 / GPT-5.5 xhigh - Fable 没了之后,大家拿来一起跑 autoresearch 和 /goal 的模型组合
Task Machine - 让 agent 循环可被治理的基础设施:目标、运行时、验证器、审批、任务历史
Awesome AI Auto-Research - 一张人工整理的 GitHub 地图,覆盖 auto-research 生命周期的四阶段八步骤
Fable 5 - 周中被切断的顶级 autoresearch 模型,今天几乎每个强长跑要么建在它上面、要么在它之后手忙脚乱
Karpathy 的 autoresearch - 人人引用的参照循环:一个指标、一个可编辑文件、一个快验证器、内层循环里没有人
evo / Weco - 在跑真实过夜 autoresearch 任务的实验平台,配冻结基线的准确率门槛
Kimi-K2.7-Code - 在 ML 工程类 autoresearch 任务上反超前沿模型的开源模型
SIA(Hexo Labs)- 新开源的自我改进 agent,同时改写 harness 和权重,在 LawBench 和 AlphaEvolve 上都有提升
Opus 4.8 / GPT-5.5 xhigh - Fable 没了之后,大家拿来一起跑 autoresearch 和 /goal 的模型组合
Task Machine - 让 agent 循环可被治理的基础设施:目标、运行时、验证器、审批、任务历史
Awesome AI Auto-Research - 一张人工整理的 GitHub 地图,覆盖 auto-research 生命周期的四阶段八步骤
评论