2026年4月19日loop

Loop 日报: 2026-04-20

autoresearch 这个模式今天算是正式破圈了。话题不再是"它能不能让模型过夜训得更好"——现在看到的是 Shopify 把 CI 那 30 分钟砍掉、材料科学的人三天筛 4300 种材料、一个带娃爸爸烧 21 美元 token 产出整个 org 的浏览器自动化、还有中国开发者纯 autoresearch 架构在 terminal bench 上干翻了自己原来的 skill 版本 5 个点。Karpathy 点了火，爆炸半径已经涵盖了大家的生产代码。

💡#1

@shobitfarcast
https://x.com/shobitfarcast/status/2045519722288996387
一个 Shopify 工程师烦透了等 30 分钟 CI 跑完再 fail，干脆把 Karpathy 的 AutoResearch——本来是为过夜 ML 实验造的——指向了 build time。Tobi Lütke 看到了，直接合了个 32 commit 的 PR。内部 #autoresearch-wins 频道的战绩：单元测试快 300 倍，React 组件挂载快 20%，pnpm 变快，Playwright 变快。Tobi 自己拿 Shopify 那个 20 年老的 Liquid 模板引擎跑：解析和渲染快 53%，内存分配少 61%，跨 120 轮自动实验。最狠那一句："AutoResearch 本来是为模型训练造的。现在没人拿它去训模型了。"

💡#2

@advaith_sridhar
https://x.com/advaith_sridhar/status/2045575498701705553
把 Claude 的 autoresearch 循环指向新材料发现，而不是神经网络调参。agent 提出候选导热材料，然后对每一个跑 phonon 计算验证两点：（1）动力学稳定，（2）导热性强。三天时间过了 4300 种材料，1300 种通过验证。通过的里面有一半以上从来没被合成过——属于被学界忽视但可能很有意思的那种。他们正在挑最有希望的几个，接下来几周真的要拿进实验室里合成出来。

💡#3

@Royal_Arse
https://x.com/Royal_Arse/status/2045518895532982783
在地下室陪儿子打冰球的同时，工作机在跑 pi-autoresearch，任务是给整个 org 写浏览器自动化脚本。从早 8:30 开跑，Opus 4.7，到现在 token 花了 21.49 美元。他自己的说法："这东西会创造上百万美元价值。AGI 已经到了。" 人不在电脑前这件事本身就是物理证据——AFK 现在就是 token 经济的计量单位，这哥们相当于用一顿午饭钱买了一百万美元的价值。

💡#4

@NielCansino
https://x.com/NielCansino/status/2045509793893454114
跑一个 RL 实验，两天过夜跑，每次 trial 20-50k timesteps，agent 在他睡觉和开会时自己干活。撞到经典的坑：agent 跑到中途自动 compact，然后开始幻觉。他的解法：任何长 session 结束时，只要 Claude Code 的 /context 过了 50%就算胀了，让 agent 写个 HANDOFF.md 再 /clear。下一个 session 开场就一句"Read HANDOFF.md"，10 秒接上。最好用的是他强调的 DO-NOT 段落——正向指令会过期（"下一步是 X" 一旦做完就废了），但负向指令永远有效（"别再启动 D4c 了，它熵崩了"）。

💡#5

@JoelDeTeves
https://x.com/JoelDeTeves/status/2045633743545893318
"你们里不够多的人在 OpenClaw / Hermes Agent 里跑 autoresearch。" 他有一堆定时任务每晚自动跑：个人医学研究、AI 研究、各种方向。态度比大部分人都硬：不管你搞什么领域，每晚都该跑一次。隐含的主张是过夜循环不是开发者专属的甜头——它是一个通用的研究引擎，而大多数人根本没把它打开。

💡#6

@QuantumTransf
https://x.com/QuantumTransf/status/2045511853749793115
调一个全新架构，完全不依赖任何 skill，纯 autoresearch 路线。Opus 4.6 在 terminal bench 上跑了 71.9%，已经超过了原始 skill 版本的 66.3%。有 skill 的版本到了 79.8%。但他坦白这个 researcher 架构最开始完全跑不起来，改了一整晚 prompt 才跑出这个分数。诚实的信号——harness 才是真正的技术活，不是模型，也不是 skill。

💡#7

@relizarov
https://x.com/relizarov/status/2045387315732697149
auto-research 风格的循环应用到前端性能优化。"不用搞花哨的东西。只要可重复的测量 harness、清晰的目标、加上让它写研究日志的指令。" 结果：relayout+draw 成本从每帧 20ms 压到 2ms（10 倍），数据更新路径从 8ms 压到 2ms（4 倍）。他自己说 wild——平心而论，一个高级工程师手动做 profiling 往往要一个月才能磨到这种数字。

💡#8

@0xHenriksson
https://x.com/0xHenriksson/status/2045640585810415841
去陪女儿参加 prom 的同时，开了 4 个 autoresearch agent 在跑。"Claude dispatch while I'm afk." 这已经是一个明显的模式了——人的注意力交给现实世界的责任，autoresearch 集群在地下室继续干活。token 账单一直跑着，它产出的价值已经不再需要人在 loop 里。

💡#9

@_ShantanuKul
https://x.com/_ShantanuKul/status/2045335743758008704
在 discovery call 之前让 Claude 自动调研客户账户——融资新闻、招聘信号、高管变动整合成一份简报。原本要 30 分钟手动 Google 的活，现在 90 秒就能出一份 pre-call 简报。他指出更大的解锁是：用同一个循环识别哪些客户其实正在买单时刻，而不只是纸面上符合 ICP。销售工程也有自己的研究 harness 了。

💡#10

@JoelDeTeves
https://x.com/JoelDeTeves/status/2045634851987157448
让自己的 agent 基于 Karpathy 的 autoresearcher 加上一篇关于 bilevel autoresearch 的 arxiv 论文，造了一个自定义 skill。配置多少次就跑多少次。他在跟帖里补充：你可以把 bilevel autoresearch 反过来用在它自己身上，来改进 autoresearch skill 本身——"autoresearch-ception"。递归自我改进真的跑到用户手里了，而不只是实验室 demo。

💡#11

@ziv_ravid
https://x.com/ziv_ravid/status/2045519100630475128
拿 Karpathy 的 autoresearch 当 benchmark，直接让 Claude Opus 4.6 和 4.7 对打。他的判断：好的 PR 稿可以把这事包装成"撞墙"了，但其实学不到什么东西。这是为数不多的把 autoresearch 本身当作模型对比 eval 的例子——同一个循环，换个脑子。

💡#12

@pau_nrda
https://x.com/pau_nrda/status/2045608437111824439
和 Anton 一起造了一个 autoresearch 驱动的选股 AI agent。细节不多，但 DeFi 和股票方向的人在 loop daily 里出现得越来越频繁——"可量化目标"太明显（P&L），循环会一直在这条路上磨，也不会走神。

📡 生态产品雷达

生态产品雷达

pi-autoresearch / Karpathy autoresearch —— 起源梗，现在在 Shopify 的 CI、材料实验室、浏览器自动化、销售准备场景里都跑上了。
Claude Code —— 今天大多数过夜循环的 dispatch 层。
Claude Opus 4.7 —— 长循环 autoresearch 的默认大脑，4.6 还在对比里出现。
Hermes Agent / OpenClaw —— 用户把 autoresearch 插进去的 agent harness。

← 上一篇

超级用户日报: 2026-04-20

灵感雷达: 2026-04-20

← 返回所有文章

加载中...

Loop 日报: 2026-04-20

更多文章

评论