2026年6月10日loop

Loop 日报: 2026-06-10

今天来了两拨人，而且各说各话。一拨人手里有凭据：用户睡觉时被连夜调好的 Elasticsearch 索引、被一手接一手的 autoresearch 从 25B 压到不到 2B 的电路分数、Karpathy 自己二十年都没发现、却被跑在他自己模型上的 agent 揪出来的 weight decay 和 Adam beta 错误。另一拨人在泼冷水：Shopify CEO 那批没人合并的 autoresearch PR、一旦对准真实训练就净干蠢事的模型。两拨底下其实是同一个实诚的信号——循环只有在目标可验证、且有人盯着 token 表的时候才划算。下面是大家今天真正跑了的东西。

💡#1

@jakevoytko
https://x.com/jakevoytko/status/2064007179481317679
这是关于 autoresearch 为什么重要最干净的一句话证明。Voytko 在睡觉时调好了一个全新的 Elasticsearch 向量搜索索引，靠的是让一个自主循环连夜跑优化。没有仪表盘，没有吹嘘，就是一个真实的生产索引，在晚饭和早饭之间变好了。循环的卖点不是上班时更快，而是你不在的时候照样有活在干。

💡#2

@Serantych
https://x.com/Serantych/status/2064076852361052441
这里面那个 Karpathy 的细节，一句话就是 autoresearch 的全部论据。在一个他已经精心调过的模型上连夜跑 agent，它们揪出了他二十年训练生涯里都没发现的 weight decay 和 Adam beta 错误。Karpathy 还说自己从十二月起就没敲过代码，靠'宏动作'在 10 个仓库上并行跑 agent。当循环抓出一个世界级专家压了二十年的错误，关于它是不是真的那场争论就结束了。

💡#3

@sreeramkannan
https://x.com/sreeramkannan/status/2063802738656338329
这是把 autoresearch 跑成了一场接力赛，数字还很夸张。一个电路分数在一个人的 autoresearch 下从 25B 降到 10.8B，再在一个小型多人组手里降到 6B，然后公开研究者互相叠加、几天内推到 1.9B 的 SOTA。Kannan 的定性才是真正的要点：学术研究的时间线正被压缩到互联网加 AGI 的速度，大家近乎实时地把彼此的想法摞起来。循环不只往深里扩，也往宽里扩。

💡#4

@AINativeF
https://x.com/AINativeF/status/2064134759044050959
SIA 是那篇把循环比所有人都往深挖了一层的论文。大多数自改进方案只重写脚手架——围着一个冻结模型的 prompt 和 harness。SIA 的循环同时更新模型权重和任务专属的 harness，由一个语言模型反馈 agent 驱动，在 LawBench、GPU kernel 运行时和 RNA 去噪上都打败了只改脚手架的迭代。这是"一个 agent 越来越会用自己"和"一个 agent 真正改变了自己是什么"之间的区别。

💡#5

@MertLovesAI
https://x.com/MertLovesAI/status/2063956131525910753
这是那种应该让人砍掉一条路线图的循环结果。CL-Bench 衡量一个 agent 到底有没有从经验里学到东西，而用 Claude Sonnet 4.6 的朴素全 context 上下文学习以 25.4% 的学习增益登顶。花哨的专用 playbook 系统 ACE 排第十，增益只有 8.6%，每次还烧 62.8 美元。Claude Code 当无头 harness 拿到 23.9%、每次 38.6 美元，并赢下最长的任务。教训是：一个带自动压缩的真 agentic 循环，胜过外挂的向量库，还更便宜。

💡#6

@rohanpaul_ai
https://x.com/rohanpaul_ai/status/2063825845605499335
AutoLab 是那个给大家一直在隐约感觉的东西命了名的基准。它给 17 个模型一堆从"能用但弱"的代码起步的任务，要求在限定时间里改进，而赢家不是靠那个聪明的第一想法赢的，是靠拒绝停止测试赢的。Claude Opus 4.6 领先，不是因为一猜就对，而是因为不断把实证反馈折进下一次尝试。标题是：在长程工作里，坚持才是那项技能，而不是天分。

💡#7

@yuyinzhou_cs
https://x.com/yuyinzhou_cs/status/2064059162972311994
AutoMedBench 把 autoresearch 拖进了一个"错了有后果"的领域。它是第一个覆盖完整流程的医学 autoresearch agent 基准——分割、图像增强、VQA、报告生成、病灶检测——24 个任务、6 个前沿 agent（Opus 4.6 以 66.5 领先）。尖锐的发现是：这些 agent 更擅长把流程跑完，而不是产出高质量的科学，它们最容易崩在验证和提交，而不是理解任务上。循环能转，但终点处的判断仍然是它失手的地方。

💡#8

@mukulanandbhatt
https://x.com/mukulanandbhatt/status/2063882369808121910
这是把 autoresearch 对准了钱，而不是基准。Bhatt 花四天做了个 agent，横跨 Stripe、用量数据库和代码库，持续盯着计费操作，揪出那些不付钱却莫名还挂着付费套餐的用户。它不停地跑、从每个案例里学，已经抓到并修好了多处营收漏洞的对不上。一个安静地堵住损益表窟窿的自改进循环，比又一个排行榜是好得多的 demo。

💡#9

@anshulix
https://x.com/anshulix/status/2064035932366606504
Anshulix 开源了那个"替你给写码 agent 写 prompt"的循环，并且对账单很诚实。把它对准一个仓库，它先采访你，拉起带路径归属的仓库专属 agent，然后跑一个有监督的循环——一个'beacon'给"接下来做什么"排序，你批准，agent 在隔离的 worktree 里直接建进一个 PR。他直说这玩意一天烧 100 到 200 美元的 token，最适合用在规划充分的一次性 app 上，而不是你的实验性副业。能力和成本，出现在同一句话里。

💡#10

@Marktechpost
https://x.com/Marktechpost/status/2063901171325280543
Google 把 agentic 循环做成了企业级功能，那套架构值得抄。Gemini Enterprise 里的 Agentic RAG 跑一个"充分上下文 agent"，它检查检索到的片段加一份草稿，记录还缺什么，再去重新检索，直到 context 真的完整，而不是瞎猜或者甩一句"没找到"。完整循环是编排器→规划器→查询改写→检索扇出→充分性检查→综合。它做到 90.1% 的跨语料路由准确率，事实性比标准 RAG 高出多达 34%。"一直搜到够为止"的这个循环，就是那个解锁点。

💡#11

@qiluaH02
https://x.com/qiluaH02/status/2064090744584093837
Macaron-V1 把 autoresearch 循环烤进了模型自己的训练里。它是一个 749B 的 Mixture-of-LoRA，冻结 744B 底座、训练五个 1B 适配器，用一个 auto-research 的 prompt 优化循环做自进化，还放出了打败 GPT 5.4 和 Opus 4.6 的基准（VitaBench 上 59.6 对 37.2）。排行榜的说法照例谨慎看，但有意思的是架构：那个自改进循环不是裹在模型外面的 harness，而是模型内部的一个组件。

💡#12

@ziv_ravid
https://x.com/ziv_ravid/status/2064002389586096380
Ravid 把 Karpathy 的 autoresearch 范式对准了一个可证伪的东西：NBA 总决赛。他没对尼克斯打马刺发表高见，而是让一个自主研究 agent 自己去建并调那个预测模型——循环就是让 LLM 改训练代码、跑一次短实验、指标变好才留下这次改动、重复，目标对准当晚那场比赛。案例不大，但属于实诚那一类：一个可验证的目标、一个可度量的指标、一个第二天早上就能对答案的结果。

💡#13

@Yuchenj_UW
https://x.com/Yuchenj_UW/status/2064036389746831813
这是对整个循环命题最干净的表述。Yuchen 主张你该停止直接给写码 agent 写 prompt，转而去设计那些"给你的 agent 写 prompt"的循环，把循环定性为对当下模型判断力差的一种绕行——它们不知道何时该继续、何时该停、何时该调工具。循环逼着 agent 干得更久，而且恰恰在目标可验证的地方最有威力，这就是为什么 AutoResearch 是那个证明案例。这是"临时脚手架"的视角：循环替模型暂时补上了它们还没有的判断力。

💡#14

@robdel12
https://x.com/robdel12/status/2064023711494099336
今天来自怀疑派的凭据，而且很公道。Robdel 指出当下的模型连"循环加度量"这个基本循环都做不好，举证 Shopify CEO 那批大张旗鼓、用 pi-autoresearch 生成的 PR，最后一个都没被合并。这是对所有"过夜出奇迹"故事的必要配重：一个产出无法合并的循环，不是自主进展，是昂贵的空转。同一周的证据两边都砍，这话值得明说。

📡 生态产品雷达

生态产品雷达

evo —— 这周反复冒头的开源 autoresearch 编排器，现在开了 beta，能把自改进循环嵌进你自己的产品（@alokbishoyi97）。
AutoLab —— 大家都在引用的新长程基准，在这里坚持迭代胜过那个聪明的第一想法（@rohanpaul_ai, @ritualdigest）。
Karpathy autoresearch 循环 —— 被一遍遍重新实现的范式：让模型改代码、跑实验、指标变好才留下这次改动（@ziv_ravid, @Serantych, @jakevoytko）。
Claude Code + Opus —— 当循环必须真正跑完时，大家还是回头去拿的那套 harness 加模型组合（@MertLovesAI, @Yuchenj_UW）。

← 上一篇

超级用户日报: 2026-06-10

灵感雷达: 2026-06-10

← 返回所有文章

加载中...

Loop 日报: 2026-06-10

相关文章

评论