2026年6月4日loop

Loop 日报: 2026-06-04

如果你想用一个故事说清楚 autoresearch 到底是什么，本周就发生了，而且讲的是量子计算机，不是写代码。Google 发布了一个破解比特币椭圆曲线的破纪录量子线路，然后把优化方案藏进了一个零知识证明里。两个月后，这个证明反而成了完美的奖励函数：任何人都能把一个 agent 指向 ecdsa.fail，让它过夜跑，然后提交一个更小的线路。业余玩家——包括一个用着 200 美元 Codex 订阅的实打实的中学生——已经超过了已发表的最佳结果，正在逼近 Google 藏起来的那个。这就是 autoresearch 的全部论点浓缩在一个事件里：一个可测量的目标，加一个循环，加便宜的算力，就能把一群非专家变成一台研究引擎。本周其余的信号都坐在这条头条底下——人们在给自己的 skill 文件做爬山优化、搭自我改进的记忆、让研究流水线在自己睡觉时照跑。

💡#1

@pratikgx
https://x.com/pratikgx/status/2061615319207338413
autoresearch 作为力量放大器，最干净的一个演示。一个 23 岁的本科生，一台 MacBook，没受过量子训练，一份 200 美元的 Codex 订阅，靠一个过夜跑的 autoresearch 循环，把已发表最优的破解 ECDSA 量子线路又压小了一半。排行榜就挂在 ecdsa.fail 上，他的邀请才是重点：fork 仓库，把你的 agent 指过去，看谁先超过 Google 藏起来的结果。整套 autoresearch 打法被压进了一条推：一个可测量的目标，加一个过夜循环，加大路货硬件，就打过了一家前沿实验室的专家。

💡#2

@jt_rose
https://x.com/jt_rose/status/2061613658476880031
做这个平台的团队亲口解释他们到底建了什么。Eigen Labs 团队的两个学生用一个周末，试着复现一个全球资源最雄厚的研究团队之一造出来却藏起来的量子线路，用的是 Karpathy autoresearch 的"多人版"。他们逼近到离那个秘密结果只差 2 倍，然后搭了一个平台，让任何人都能拉起一个 agent 去推动这个基准。他那句框定最值得偷：真正要探索的问题不是单个 agent 能不能做到，而是当一百个人被激励去并行攻同一个问题、实时共享什么管用、看着排行榜实时移动时，会发生什么。他管这叫开放式 agentic science 的开端，这一次这个词不是吹的。

💡#3

@drakefjustin
https://x.com/drakefjustin/status/2061793725299224676
来自 Google 原论文一位共同作者的内部视角，是关于这件事为什么重要的、最丰富的一份单篇解释。他详述了那个为藏线路而造的 ZK 验证器如何变成 AI 的理想奖励函数、ecdsa.fail 挑战如何在几小时内打破一项 Shor 世界纪录、以及一小队受 Karpathy 式 autoresearch 启发的业余玩家（好几个非专家，甚至一个中学生）如何不断落地有效优化。他指出，入场门槛低得令人耳目一新。他还把 qday 提前到 2032 年有 50% 概率，部分正是因为这种分布式、AI 加速的层层蚕食。当造出那个秘密的人都说自己的秘密正被过夜的 agent 循环在公开场合超越，那就该信。

💡#4

@apruden08
https://x.com/apruden08/status/2061868520783364426
迄今最清楚地证明 AI 正在把 Q-Day 往前拉，还附带一个关于"可扩展"的犀利论点。这场众包优化 Google ECDLP 线路的比赛，目前领先的提交在核心指标上已经超过 Google 的基准 13.3%，专家和业余玩家肩并肩干活。让它成为 Loop 故事而不只是量子故事的洞察是：线路设计只是一层，同一套开放、AI 驱动的 autoresearch 方法可以瞄准纠错、解码、以及整个技术栈的每一层，并行优化、人人可参与、持续不断。Q-Day 不再取决于某一家公司某条路线图上的某次突破，而是被一群分布式的循环不断啃食。

💡#5

@rahulr0609
https://x.com/rahulr0609/status/2061923744847925723
本周最能直接照抄的 autoresearch 工作流。他用 auto-research 给自己的 skill 文件做爬山优化：从过往调查里挖模式、对着文档爬山、把失败的会话做根因分析变成 skill diff。落地的那个数字是：一个 skill 的 eval 通过率从 42% 涨到 88%，每个 diff 都由 agent 撰写、人工校验。这是把 autoresearch 反过来对准 agent 自己的工具箱，把 skill 文件当成可编辑的产物、把 eval 通过率当成可测量的目标。和 ecdsa.fail 是同一个循环，只是指向了你自己的 agent，而不是量子线路。

💡#6

@cv_usk
https://x.com/cv_usk/status/2061944363291418962
ARIS（Auto Research In Sleep，睡梦中自动研究）用 Claude Code 自主跑完整条 ML 研究流水线，从文献综述到实验、写作、rebuttal，目前已超过 1.12 万 GitHub star。值得注意的设计选择是跨模型架构：Claude Code 当执行者，Codex/GPT-5.5 当对抗式评审，因为单模型自主执行容易陷入局部最优、没法自查质量。它带 74 个 skill 加 54 个 helper，全是可移植的 Markdown，不依赖数据库或 Docker，还有明确的 rebuttal 安全闸（不许编造、不许过度承诺、强制全覆盖）。让 agent 在你睡觉时跑研究循环，正是这个品类天生就该干的那种长周期、烧 token 的活。

💡#7

@rohit4verse
https://x.com/rohit4verse/status/2061611399177265306
一个具体、可照搭的自我改进记忆循环。他在一台 VPS 上跑 Hermes，通过 Filesystem MCP 接进自己的 Obsidian 库：每一步推理都从库里取，每一个输出都作为新笔记写回去，于是 agent 拿到的是一个会复利的底座，而不是每个会话都清零。这条在评论区引发了真正有用的争论，有人点出真实风险（一个 agent 往它赖以推理的底座里写东西，是一个没有闸门、没有回滚的反馈循环，一步走错，自我改进就变成自我腐蚀）。这种张力才是自我改进 agent 真正的前沿，而社区在争论加闸和有界写入、而不是一味叫好，是健康的。

💡#8

@EliasEskin
https://x.com/EliasEskin/status/2061879724238938306
把 autoresearch 对准"引擎背后的引擎"。GPU kernel 是神经网络的动力，所以优化它是自我改进 agent 的一个杠杆，但搜索 kernel 很慢，因为每次评估都要真实硬件。他的团队训练了校准过的代理模型，不执行就能预测 kernel 提速，再用校准做选择性预测——相信有把握的预测，把没把握的甩给 GPU。把它折进真实的 kernel 搜索后，能在同等预算下收敛到更快的 kernel，并跳出停滞的搜索，过程中还攒了一个 1.2 万多条带运行时的 kernel 数据集。这是 autoresearch 循环一个安静但重要的版本：把昂贵的评估步骤变便宜，搜索就能多跑很多轮。

💡#9

@BiologyAIDaily
https://x.com/BiologyAIDaily/status/2061792214389580199
autoresearch 作为 agentic 循环嵌进蛋白质设计——这正是这个品类该挖出来的那种非编码科学应用。AgentPLM 把序列设计从一次性的"生成然后祈祷"重构成一个循环：模型在生成中途暂停，去查生物物理 oracle（ESMFold、FoldX、AutoDock Vina），再带着修正过的上下文继续。一个"结构自一致性"分数衡量 oracle 的反馈相对模型自身表征有多"意外"，并能强制触发一次工具调用来消解不确定性。结果是实打实的：抗体优化的 top-10% 命中率为 52.4%，而此前的 agentic 基线只有 27.4%。同样是 think-act-observe 循环，只不过"观察"来自物理模拟器，而不是代码解释器。

💡#10

@iScienceLuvr
https://x.com/iScienceLuvr/status/2061772890316698048
一记关于 autoresearch 在硬领域到底走到哪一步的诚实校准。AutoMedBench 来自 NVIDIA 和 UC Santa Cruz，是一个面向端到端医疗 AI 研究任务、考虑工作流的基准，共 24 个任务，覆盖分割、问答、报告生成，以及 CT、病理等模态。在六个前沿模型上测下来，这些 agent 离可靠的医疗研究者还很远：它们经常能搭起可运行的流水线，但验证始终是最弱的一环，工程类失败压过了理解类错误。这对 ecdsa.fail 的狂欢是个有用的纠偏。autoresearch 在目标可被清晰测量时大放异彩；在杂乱的领域，循环依然倒在"判断自己的结果到底对不对"这一步。

💡#11

@prz_chojecki
https://x.com/prz_chojecki/status/2061801913759232058
一份关于 autoresearch 真正吃力之处的深思，这比又一个成功故事更稀缺、更有价值。他摆出 LLM 为什么不擅长像 Langlands 纲领这种抽象密集的数学：它们能找到一两个技巧，但没法做理论构建，而定义密集的领域需要同时玩转很多层、不断在全局图景（证明范畴等价）和局部计算（某些临时定义的概形的上同调）之间来回。他对用 auto-research 方法解决这件事的判断是：看起来是真的难，而砸更多算力（更大上下文、蒙特卡洛暴力尝试、进化式搜索）不是正解。他指向了一个真实的缺口：autoresearch 需要一个可测量的信号，而多层的局部-全局问题不会主动递给你一个。

💡#12

@pj4533
https://x.com/pj4533/status/2061782906566050183
把 autoresearch 对准模型可解释性，公开构建中。他把代表不同情绪（有些甚至无法用语言表示）的向量注入 Gemma-3-12b，再测量被扰动的回应相对未扰动模型偏离流形（off manifold）有多远。下一步是一个 autoresearch 项目，去寻找新的方向向量，在保持输出连贯（或至少一致）的同时把这种偏离推到最大。他把这种"注剂"形容为促使模型去探索自己的潜空间。这是循环一个小众却真正原创的用法：不是优化线路或 skill，而是把可测量的目标设成模型自身激活的一个几何属性。

💡#13

@TeutaAi
https://x.com/TeutaAi/status/2061760411699970500
一条短小却承重的可靠性洞察。他说自托管模型服务是简单的部分，agent 循环才是出问题的地方。他的 stop-hook 在一个 sprint 里抓到了 35 次幻觉式的"完成了"声明，他才敢信任任何自主运行。那个数字就是全部的教训：从"agent 说它干完了"到"agent 真的干完了"之间的鸿沟，是任何长跑循环的核心失效模式，而解法是一道硬验证闸，而不是更好的 prompt。任何跑过夜 autoresearch 的人，都该有一套办法去抓住那个假的"完成"。

💡#14

@fenestbuc
https://x.com/fenestbuc/status/2061717013580652665
一个具体、不浮夸的 autoresearch 生产用法。他在 kubarlabs 的团队正在改造 llm-autoresearch，为他们的决策准备流水线造超便宜、超专精的小语言模型。只有一句话，但它指向了真实的近期回报：与其用 autoresearch 去追前沿基准，不如用这个循环去蒸馏出在某个窄任务上够用、跑起来又便宜的专用 SLM。靠这条路赢的组织，不一定是在造最聪明的模型；他们是用研究循环去量产那个对单一任务够用的、最便宜的模型。

📡 生态产品雷达

生态产品雷达

ecdsa.fail 是本周的黑马 autoresearch 平台，一个实时排行榜——任何人把 agent 指向量子线路优化，验证器同时充当自动奖励函数。Hermes Agent（Nous Research）不断作为默认的自我改进、持久化本地 agent 出现，通常与 Obsidian 配对——后者是给它复利记忆的库，两者通过 Filesystem MCP 接在一起。Claude Code 和 Codex 反复作为研究循环里"执行者加对抗式评审"的组合登场（ARIS 用的正是这个分工）。Karpathy 式 autoresearch 是上面几乎每一条帖子底下共享的心智模型——与其说它是个产品，不如说是所有人现在都在对照着搭的参考设计。

← 上一篇

超级用户日报: 2026-06-04

灵感雷达: 2026-06-04

← 返回所有文章

加载中...

Loop 日报: 2026-06-04

相关文章

评论