2026年6月9日loop

Loop 日报: 2026-06-10

今天来了两拨人,而且各说各话。一拨人手里有凭据:用户睡觉时被连夜调好的 Elasticsearch 索引、被一手接一手的 autoresearch 从 25B 压到不到 2B 的电路分数、Karpathy 自己二十年都没发现、却被跑在他自己模型上的 agent 揪出来的 weight decay 和 Adam beta 错误。另一拨人在泼冷水:Shopify CEO 那批没人合并的 autoresearch PR、一旦对准真实训练就净干蠢事的模型。两拨底下其实是同一个实诚的信号——循环只有在目标可验证、且有人盯着 token 表的时候才划算。下面是大家今天真正跑了的东西。
💡#1
@jakevoytko
https://x.com/jakevoytko/status/2064007179481317679
这是关于 autoresearch 为什么重要最干净的一句话证明。Voytko 在睡觉时调好了一个全新的 Elasticsearch 向量搜索索引,靠的是让一个自主循环连夜跑优化。没有仪表盘,没有吹嘘,就是一个真实的生产索引,在晚饭和早饭之间变好了。循环的卖点不是上班时更快,而是你不在的时候照样有活在干。
💡#2
@Serantych
https://x.com/Serantych/status/2064076852361052441
这里面那个 Karpathy 的细节,一句话就是 autoresearch 的全部论据。在一个他已经精心调过的模型上连夜跑 agent,它们揪出了他二十年训练生涯里都没发现的 weight decay 和 Adam beta 错误。Karpathy 还说自己从十二月起就没敲过代码,靠'宏动作'在 10 个仓库上并行跑 agent。当循环抓出一个世界级专家压了二十年的错误,关于它是不是真的那场争论就结束了。
💡#3
@sreeramkannan
https://x.com/sreeramkannan/status/2063802738656338329
这是把 autoresearch 跑成了一场接力赛,数字还很夸张。一个电路分数在一个人的 autoresearch 下从 25B 降到 10.8B,再在一个小型多人组手里降到 6B,然后公开研究者互相叠加、几天内推到 1.9B 的 SOTA。Kannan 的定性才是真正的要点:学术研究的时间线正被压缩到互联网加 AGI 的速度,大家近乎实时地把彼此的想法摞起来。循环不只往深里扩,也往宽里扩。
💡#4
@AINativeF
https://x.com/AINativeF/status/2064134759044050959
SIA 是那篇把循环比所有人都往深挖了一层的论文。大多数自改进方案只重写脚手架——围着一个冻结模型的 prompt 和 harness。SIA 的循环同时更新模型权重和任务专属的 harness,由一个语言模型反馈 agent 驱动,在 LawBench、GPU kernel 运行时和 RNA 去噪上都打败了只改脚手架的迭代。这是"一个 agent 越来越会用自己"和"一个 agent 真正改变了自己是什么"之间的区别。
💡#5
@MertLovesAI
https://x.com/MertLovesAI/status/2063956131525910753
这是那种应该让人砍掉一条路线图的循环结果。CL-Bench 衡量一个 agent 到底有没有从经验里学到东西,而用 Claude Sonnet 4.6 的朴素全 context 上下文学习以 25.4% 的学习增益登顶。花哨的专用 playbook 系统 ACE 排第十,增益只有 8.6%,每次还烧 62.8 美元。Claude Code 当无头 harness 拿到 23.9%、每次 38.6 美元,并赢下最长的任务。教训是:一个带自动压缩的真 agentic 循环,胜过外挂的向量库,还更便宜。
💡#6
@rohanpaul_ai
https://x.com/rohanpaul_ai/status/2063825845605499335
AutoLab 是那个给大家一直在隐约感觉的东西命了名的基准。它给 17 个模型一堆从"能用但弱"的代码起步的任务,要求在限定时间里改进,而赢家不是靠那个聪明的第一想法赢的,是靠拒绝停止测试赢的。Claude Opus 4.6 领先,不是因为一猜就对,而是因为不断把实证反馈折进下一次尝试。标题是:在长程工作里,坚持才是那项技能,而不是天分。
💡#7
@yuyinzhou_cs
https://x.com/yuyinzhou_cs/status/2064059162972311994
AutoMedBench 把 autoresearch 拖进了一个"错了有后果"的领域。它是第一个覆盖完整流程的医学 autoresearch agent 基准——分割、图像增强、VQA、报告生成、病灶检测——24 个任务、6 个前沿 agent(Opus 4.6 以 66.5 领先)。尖锐的发现是:这些 agent 更擅长把流程跑完,而不是产出高质量的科学,它们最容易崩在验证和提交,而不是理解任务上。循环能转,但终点处的判断仍然是它失手的地方。
💡#8
@mukulanandbhatt
https://x.com/mukulanandbhatt/status/2063882369808121910
这是把 autoresearch 对准了钱,而不是基准。Bhatt 花四天做了个 agent,横跨 Stripe、用量数据库和代码库,持续盯着计费操作,揪出那些不付钱却莫名还挂着付费套餐的用户。它不停地跑、从每个案例里学,已经抓到并修好了多处营收漏洞的对不上。一个安静地堵住损益表窟窿的自改进循环,比又一个排行榜是好得多的 demo。
💡#9
@anshulix
https://x.com/anshulix/status/2064035932366606504
Anshulix 开源了那个"替你给写码 agent 写 prompt"的循环,并且对账单很诚实。把它对准一个仓库,它先采访你,拉起带路径归属的仓库专属 agent,然后跑一个有监督的循环——一个'beacon'给"接下来做什么"排序,你批准,agent 在隔离的 worktree 里直接建进一个 PR。他直说这玩意一天烧 100 到 200 美元的 token,最适合用在规划充分的一次性 app 上,而不是你的实验性副业。能力和成本,出现在同一句话里。
💡#10
@Marktechpost
https://x.com/Marktechpost/status/2063901171325280543
Google 把 agentic 循环做成了企业级功能,那套架构值得抄。Gemini Enterprise 里的 Agentic RAG 跑一个"充分上下文 agent",它检查检索到的片段加一份草稿,记录还缺什么,再去重新检索,直到 context 真的完整,而不是瞎猜或者甩一句"没找到"。完整循环是编排器→规划器→查询改写→检索扇出→充分性检查→综合。它做到 90.1% 的跨语料路由准确率,事实性比标准 RAG 高出多达 34%。"一直搜到够为止"的这个循环,就是那个解锁点。
💡#11
@qiluaH02
https://x.com/qiluaH02/status/2064090744584093837
Macaron-V1 把 autoresearch 循环烤进了模型自己的训练里。它是一个 749B 的 Mixture-of-LoRA,冻结 744B 底座、训练五个 1B 适配器,用一个 auto-research 的 prompt 优化循环做自进化,还放出了打败 GPT 5.4 和 Opus 4.6 的基准(VitaBench 上 59.6 对 37.2)。排行榜的说法照例谨慎看,但有意思的是架构:那个自改进循环不是裹在模型外面的 harness,而是模型内部的一个组件。
💡#12
@ziv_ravid
https://x.com/ziv_ravid/status/2064002389586096380
Ravid 把 Karpathy 的 autoresearch 范式对准了一个可证伪的东西:NBA 总决赛。他没对尼克斯打马刺发表高见,而是让一个自主研究 agent 自己去建并调那个预测模型——循环就是让 LLM 改训练代码、跑一次短实验、指标变好才留下这次改动、重复,目标对准当晚那场比赛。案例不大,但属于实诚那一类:一个可验证的目标、一个可度量的指标、一个第二天早上就能对答案的结果。
💡#13
@Yuchenj_UW
https://x.com/Yuchenj_UW/status/2064036389746831813
这是对整个循环命题最干净的表述。Yuchen 主张你该停止直接给写码 agent 写 prompt,转而去设计那些"给你的 agent 写 prompt"的循环,把循环定性为对当下模型判断力差的一种绕行——它们不知道何时该继续、何时该停、何时该调工具。循环逼着 agent 干得更久,而且恰恰在目标可验证的地方最有威力,这就是为什么 AutoResearch 是那个证明案例。这是"临时脚手架"的视角:循环替模型暂时补上了它们还没有的判断力。
💡#14
@robdel12
https://x.com/robdel12/status/2064023711494099336
今天来自怀疑派的凭据,而且很公道。Robdel 指出当下的模型连"循环加度量"这个基本循环都做不好,举证 Shopify CEO 那批大张旗鼓、用 pi-autoresearch 生成的 PR,最后一个都没被合并。这是对所有"过夜出奇迹"故事的必要配重:一个产出无法合并的循环,不是自主进展,是昂贵的空转。同一周的证据两边都砍,这话值得明说。
📡 生态产品雷达
生态产品雷达

evo —— 这周反复冒头的开源 autoresearch 编排器,现在开了 beta,能把自改进循环嵌进你自己的产品(@alokbishoyi97)。
AutoLab —— 大家都在引用的新长程基准,在这里坚持迭代胜过那个聪明的第一想法(@rohanpaul_ai, @ritualdigest)。
Karpathy autoresearch 循环 —— 被一遍遍重新实现的范式:让模型改代码、跑实验、指标变好才留下这次改动(@ziv_ravid, @Serantych, @jakevoytko)。
Claude Code + Opus —— 当循环必须真正跑完时,大家还是回头去拿的那套 harness 加模型组合(@MertLovesAI, @Yuchenj_UW)。
← 上一篇
超级用户日报: 2026-06-10
下一篇 →
灵感雷达: 2026-06-10
← 返回所有文章

评论

加载中...
>_