2026年4月19日loop

Loop 日报: 2026-04-20

autoresearch 这个模式今天算是正式破圈了。话题不再是"它能不能让模型过夜训得更好"——现在看到的是 Shopify 把 CI 那 30 分钟砍掉、材料科学的人三天筛 4300 种材料、一个带娃爸爸烧 21 美元 token 产出整个 org 的浏览器自动化、还有中国开发者纯 autoresearch 架构在 terminal bench 上干翻了自己原来的 skill 版本 5 个点。Karpathy 点了火,爆炸半径已经涵盖了大家的生产代码。
💡#1
@shobitfarcast
https://x.com/shobitfarcast/status/2045519722288996387
一个 Shopify 工程师烦透了等 30 分钟 CI 跑完再 fail,干脆把 Karpathy 的 AutoResearch——本来是为过夜 ML 实验造的——指向了 build time。Tobi Lütke 看到了,直接合了个 32 commit 的 PR。内部 #autoresearch-wins 频道的战绩:单元测试快 300 倍,React 组件挂载快 20%,pnpm 变快,Playwright 变快。Tobi 自己拿 Shopify 那个 20 年老的 Liquid 模板引擎跑:解析和渲染快 53%,内存分配少 61%,跨 120 轮自动实验。最狠那一句:"AutoResearch 本来是为模型训练造的。现在没人拿它去训模型了。"
💡#2
@advaith_sridhar
https://x.com/advaith_sridhar/status/2045575498701705553
把 Claude 的 autoresearch 循环指向新材料发现,而不是神经网络调参。agent 提出候选导热材料,然后对每一个跑 phonon 计算验证两点:(1)动力学稳定,(2)导热性强。三天时间过了 4300 种材料,1300 种通过验证。通过的里面有一半以上从来没被合成过——属于被学界忽视但可能很有意思的那种。他们正在挑最有希望的几个,接下来几周真的要拿进实验室里合成出来。
💡#3
@Royal_Arse
https://x.com/Royal_Arse/status/2045518895532982783
在地下室陪儿子打冰球的同时,工作机在跑 pi-autoresearch,任务是给整个 org 写浏览器自动化脚本。从早 8:30 开跑,Opus 4.7,到现在 token 花了 21.49 美元。他自己的说法:"这东西会创造上百万美元价值。AGI 已经到了。" 人不在电脑前这件事本身就是物理证据——AFK 现在就是 token 经济的计量单位,这哥们相当于用一顿午饭钱买了一百万美元的价值。
💡#4
@NielCansino
https://x.com/NielCansino/status/2045509793893454114
跑一个 RL 实验,两天过夜跑,每次 trial 20-50k timesteps,agent 在他睡觉和开会时自己干活。撞到经典的坑:agent 跑到中途自动 compact,然后开始幻觉。他的解法:任何长 session 结束时,只要 Claude Code 的 /context 过了 50%就算胀了,让 agent 写个 HANDOFF.md 再 /clear。下一个 session 开场就一句"Read HANDOFF.md",10 秒接上。最好用的是他强调的 DO-NOT 段落——正向指令会过期("下一步是 X" 一旦做完就废了),但负向指令永远有效("别再启动 D4c 了,它熵崩了")。
💡#5
@JoelDeTeves
https://x.com/JoelDeTeves/status/2045633743545893318
"你们里不够多的人在 OpenClaw / Hermes Agent 里跑 autoresearch。" 他有一堆定时任务每晚自动跑:个人医学研究、AI 研究、各种方向。态度比大部分人都硬:不管你搞什么领域,每晚都该跑一次。隐含的主张是过夜循环不是开发者专属的甜头——它是一个通用的研究引擎,而大多数人根本没把它打开。
💡#6
@QuantumTransf
https://x.com/QuantumTransf/status/2045511853749793115
调一个全新架构,完全不依赖任何 skill,纯 autoresearch 路线。Opus 4.6 在 terminal bench 上跑了 71.9%,已经超过了原始 skill 版本的 66.3%。有 skill 的版本到了 79.8%。但他坦白这个 researcher 架构最开始完全跑不起来,改了一整晚 prompt 才跑出这个分数。诚实的信号——harness 才是真正的技术活,不是模型,也不是 skill。
💡#7
@relizarov
https://x.com/relizarov/status/2045387315732697149
auto-research 风格的循环应用到前端性能优化。"不用搞花哨的东西。只要可重复的测量 harness、清晰的目标、加上让它写研究日志的指令。" 结果:relayout+draw 成本从每帧 20ms 压到 2ms(10 倍),数据更新路径从 8ms 压到 2ms(4 倍)。他自己说 wild——平心而论,一个高级工程师手动做 profiling 往往要一个月才能磨到这种数字。
💡#8
@0xHenriksson
https://x.com/0xHenriksson/status/2045640585810415841
去陪女儿参加 prom 的同时,开了 4 个 autoresearch agent 在跑。"Claude dispatch while I'm afk." 这已经是一个明显的模式了——人的注意力交给现实世界的责任,autoresearch 集群在地下室继续干活。token 账单一直跑着,它产出的价值已经不再需要人在 loop 里。
💡#9
@_ShantanuKul
https://x.com/_ShantanuKul/status/2045335743758008704
在 discovery call 之前让 Claude 自动调研客户账户——融资新闻、招聘信号、高管变动整合成一份简报。原本要 30 分钟手动 Google 的活,现在 90 秒就能出一份 pre-call 简报。他指出更大的解锁是:用同一个循环识别哪些客户其实正在买单时刻,而不只是纸面上符合 ICP。销售工程也有自己的研究 harness 了。
💡#10
@JoelDeTeves
https://x.com/JoelDeTeves/status/2045634851987157448
让自己的 agent 基于 Karpathy 的 autoresearcher 加上一篇关于 bilevel autoresearch 的 arxiv 论文,造了一个自定义 skill。配置多少次就跑多少次。他在跟帖里补充:你可以把 bilevel autoresearch 反过来用在它自己身上,来改进 autoresearch skill 本身——"autoresearch-ception"。递归自我改进真的跑到用户手里了,而不只是实验室 demo。
💡#11
@ziv_ravid
https://x.com/ziv_ravid/status/2045519100630475128
拿 Karpathy 的 autoresearch 当 benchmark,直接让 Claude Opus 4.6 和 4.7 对打。他的判断:好的 PR 稿可以把这事包装成"撞墙"了,但其实学不到什么东西。这是为数不多的把 autoresearch 本身当作模型对比 eval 的例子——同一个循环,换个脑子。
💡#12
@pau_nrda
https://x.com/pau_nrda/status/2045608437111824439
和 Anton 一起造了一个 autoresearch 驱动的选股 AI agent。细节不多,但 DeFi 和股票方向的人在 loop daily 里出现得越来越频繁——"可量化目标"太明显(P&L),循环会一直在这条路上磨,也不会走神。
📡 生态产品雷达
生态产品雷达

pi-autoresearch / Karpathy autoresearch —— 起源梗,现在在 Shopify 的 CI、材料实验室、浏览器自动化、销售准备场景里都跑上了。
Claude Code —— 今天大多数过夜循环的 dispatch 层。
Claude Opus 4.7 —— 长循环 autoresearch 的默认大脑,4.6 还在对比里出现。
Hermes Agent / OpenClaw —— 用户把 autoresearch 插进去的 agent harness。
← 上一篇
超级用户日报: 2026-04-20
下一篇 →
灵感雷达: 2026-04-20
← 返回所有文章

评论

加载中...
>_