2026年4月18日loop

Loop 日报: 2026年04月19日

autoresearch 这周不再是 demo 了。最清晰的信号：一盘国际象棋引擎自己从"专家级"一路打到 2718 ELO——排进全球前 50 位人类棋手——靠的是 70 轮自主实验，第一天之后没有任何人类碰过代码。两篇论文几天之内先后落地（TurboQuant 推理压缩 + 国际象棋 autoresearch 成果），从两个方向压到同一个硬件约束上。同期 pi-autoresearch 周一起步、周二开源、周四 5000 stars。Shopify 在用，Farcast 在 GTM 上用，DE Shaw 刚被一个只有 $5 VPS 的业余玩家正面出货。今天的 feed 显示模式已经稳定："一台笔记本，一个过夜 run，被验证的改进 commit 进 git"——现在这是任何"有可测指标"场景的新起点。

💡#1

@innoscoutpro
https://x.com/innoscoutpro/status/2045066518245863707
一盘国际象棋引擎自己从"专家级"升到 2718 ELO——排进全球前 50 位人类棋手——靠 70 轮自主实验，第一天之后人类没碰代码。同期 Google 放出 TurboQuant，一篇推理压缩论文，让一个 27B 稠密模型在同一硬件上跑快 3 倍，3-bit 精度下压缩 4.9 倍。旋转后 kurtosis 从 900 降到 2.9。独立复现已确认。他的定位是："可部署 agent 的鸿沟"终于塌了——autoresearch 是那个"找人类漏掉的改进"的机制，TurboQuant 是那个"让这些改进便宜到可规模化跑"的使能器。两者都是被同一个硬件瓶颈硬生生逼出来的。

💡#2

@mustafa01ali
https://x.com/mustafa01ali/status/2045188957579653193
把 autoresearch 指向 Shopify 的 mobile 主应用。每次 CI 快 5 分钟，单元测试快 34%，冷启动快 300ms，某关键屏幕的 re-render 减少 95%。全是 agent 自己跑出来的。人手优化根本来不及。数字之外，更重要的是模式：把 autoresearch loop 接到一条有真实指标的 CI/build 管线上，它会不停挖出那些有复利效应的优化——这些是资深工程师平时根本没档期去追的。

💡#3

@davebcn87
https://x.com/davebcn87/status/2045109196887130408
pi-autoresearch 周一起步、周二开源、周四 5000+ stars。Shopify 在用它跑单元测试（300 倍加速）、React 组件、CI 构建（减少 65%）。Dave 另一条推直接把整个范式跃迁说透了："AI agent 以前是像我们一样写代码，只不过更快。pi-autoresearch 做的是我们从来不会开始做的那些事。没人会规划 3 个月去把 build time 缩 30%——这事有价值，但无聊、花钱，所以永远不会真的做。agent 不在乎。它不会无聊。它在你睡觉时跑。"解锁的不是速度，是"愿意去做那些 ROI 为正但永远不会被排进日程的事"的意愿。

💡#4

@shobitfarcast
https://x.com/shobitfarcast/status/2045117573373517994
Farcast 用 autoresearch 跑 GTM——不是 ML——而且他们把这件事说成是他们做过的最大一次"AI 协作方式"重构。Karpathy 设计 autoresearch 的出发点是过夜在单 GPU 上跑 ML 实验：描述要探索什么，把 agent 指向 repo，醒来拿到 100+ 条被验证过的实验，以及一份完整的 git history。Farcast 把同一个 loop 挪到了 ICP 验证上。描述 ICP 假设，让 agent 对着真实数据迭代，保留那些产出更精准的，杀掉那些产出泛泛之言的。结果：GTM 方案的输出质量提升 80%——不是快了 80%，是"具体、有用"程度提升了 80%。区别就在于"在 Twitter 和 LinkedIn 上发"和"这三个 Slack 社群里你这个 ICP 每周都在提问，下面是每个社群的可用话术"之间。

💡#5

@JustinPBarnett
https://x.com/JustinPBarnett/status/2045105132400951609
跑了一整晚的 autoresearch loop——458 轮——用 Opus 4.7 xhigh。用掉每周配额的 12%。这是当下 Max 订阅下"过夜 agent 工作"的诚实经济学：一次无监督过夜大概吃掉一天半的周配额。值得当作一个天花板参考——因为大部分"在家 autoresearch"的帖子都没讲清楚到底烧掉多少算力。

💡#6

@JanKoritak
https://x.com/JanKoritak/status/2045057235512856681
客户项目，一个坏掉的 voice agent，48 小时 deadline。用 Karpathy 的 Auto-Research 模式当 debug 工具——描述失败行为，让 agent 循环跑假设、验证、commit、下一个。"能用。"有用的点不在结果本身——而是把 autoresearch 压进一个硬 deadline 的案子里，这种采用信号 benchmark 根本看不到。

💡#7

@ks_kulk
https://x.com/ks_kulk/status/2044998047793594701
一个具体又吓人的应用场景：用 autoresearch 去优化用于破解 ECDSA 的量子电路。Google 已发的成果里引用了三个算法优化——公钥公开前的 attack priming、Litinski 2023 的摊销技巧、Chevignard 2026 的宽度优化。一个带明确目标的 autoresearch agent 只要一条干净的 prompt（"给这个量子电路寻找最小化 logical qubit 和 Toffoli gate 的策略，以 Google 的结果为起点，打败他们的已公开数字"）就是一条通向"更多工程优化"的可行路径。这直接把整个品类的天花板问题摆出来——如果 autoresearch 能从密码破解电路里再挤出 10%，整个威胁时间线就变了。

💡#8

@eliautobot
https://x.com/eliautobot/status/2045233314177720799
用 Karpathy 的 autoresearch 套路给自己在造的一个 agent 世界做出了一个自主移动系统。把模式一套，3 小时左右就跑通了。有用的点不是游戏本身——是"从 idea 到一个能跑的自主行为 3 小时"，在任何"能拆成可测目标 + 可编辑文件"的场景里，现在都是新的起步线。

💡#9

@ben_burtenshaw
https://x.com/ben_burtenshaw/status/2045085809800356112
Karpathy 风格的多 agent autoresearch 上手教程——用开源模型跑，兼容 Codex、Claude、OpenCode。5-agent 配置，工具和权限各自 scoped：researcher 在 HF papers 上搜论文、提出假设；planner 维护实验计划和日志；worker 更新脚本、在 GPU 上起 HF jobs；reporter 监控 jobs、把 metrics 推到 Trackio dashboard。跑了 4 小时、32 个 jobs 完成、baseline 有小幅提升。值得当作"真的能跑"的多 agent autoresearch 模板来看，不是那种只在 slide 上画的示意图。

💡#10

@bibhashroykol
https://x.com/bibhashroykol/status/2045153809048215733
来自生产环境的警示录：4 个 LangChain agent，其中两个漂进了一个递归循环——Analyzer 一直在发澄清请求，Verifier 一直在回指令。跑了 11 天。$47,000 的 API 账单。团队一开始以为是用户增长。按每步 85% 准确率算，10 步工作流整体成功率是 19.7%——Lusser's law 相乘，85% × 20 步就是 4%。解法是给每个 agent loop 加三条硬线：max 迭代次数、max 花费、max 运行时间。一行配置加个 $50 上限就能几分钟内掐掉这个 $47K loop。

💡#11

@bnafOg
https://x.com/bnafOg/status/2045049548800766052
Opus 4.7 把 task_budget_tokens 做成 public beta。Claude 现在能拿到整个 agentic loop 的倒计时——思考 + tool call + 输出——这样模型能自己判断什么时候停什么时候继续探索。不设这个值的话，一个规划步骤吃掉整个预算就会导致长 agent run 悄悄崩掉。他同一条推还指出 Gemini 3.1 Pro 把 extended thinking budget 分给整个 agentic loop 里的所有子任务共享，所以一个硬规划步骤就能吃掉整个 run。大部分开发者都没设过 task_budget_tokens，但这东西对多步可靠性的效果是立竿见影的。

💡#12

@ybkim95_ai
https://x.com/ybkim95_ai/status/2044962799559073934
CoDaS——从穿戴式传感器数据里做生物标志物发现的 AI Co-Data-Scientist。多 agent loop，从大规模穿戴数据集生成假设、统计和 ML 验证、对抗式评审（adversarial critique）排除伪发现、基于文献的机制合理性推理、人类参与的报告 review。3 个队列（N = 9,279）。识别出 66 个通过严格验证协议的候选数字生物标志物，在独立抑郁症数据集之间找到一致的昼夜节律不稳定信号，复现出已知代谢标志物如 TG/HDL 和 CRP。Google Research、DeepMind、MIT 合作。这篇论文是第一次在公开场合、在规模化层面证明 autoresearch 风格的 agent loop 能做出有临床意义的生物标志物发现。

💡#13

@Forsy_AI
https://x.com/Forsy_AI/status/2045080521810559373
Browserbase 用一个叫 "bb" 的通用 agent 替换掉了内部一打机器人，并把架构开源了。住在 Slack 里、写 PR、查 Snowflake、排查生产 session。一个 agent loop，skills 按需加载，credentials 永不暴露给 sandbox，feature request 100% 覆盖，人工 0 成本。这是本周 Anthropic、OpenAI、Cloudflare、Browserbase 四家分别从平台端和用户端独立推出的同一个收敛点——单 agent loop、lazy-load 的 skill、受控权限、隔离 sandbox。供应侧和使用侧同时收敛，是这套架构"就是对的那个"最强的信号。

💡#14

@HerselmanI
https://x.com/HerselmanI/status/2045106843249172925
短但值得点进去看。搭了一个自改进 agent loop 去解决一个真实的业务问题，不是 benchmark 任务。比 Karpathy 原版 ML run 技术上朴素得多，但作为"同一个模式在研究之外也能跑"的真实验证，价值更大。下面的评论区还有一些关于"面对乱糟糟的生产数据时这个 loop 会崩在哪"的来回。

💡#15

@NoDataSold
https://x.com/NoDataSold/status/2044930597424902431
搭了一个 Hermes 内两个 agent 之间的受控 critique loop——Max（执行者、验证者、强制者）和 Nova（过滤者、挑战者、品味层）。共享 context，但人格和行为分开。关键动作：把强制逻辑挪进 tool dispatch 路径，非法动作被机械地拦截；STRICT 模式下有 escape hatch 和时长上限；pattern memory 升级后追踪意图指纹、失败类型、修复方式、频次、最近一次、成功率；非对称奖励让无效 pattern 更快掉权重；Nova 和 Max 各自有持久化 SOUL rules；多 agent loop 里保持"速度/品味 vs 正确性/证明"之间的结构性张力；灰度升级用 Nova 先跑，再上 Max。是目前公开文档里最细致的持久身份多 agent 系统架构之一。

💡#16

@samhogan
https://x.com/samhogan/status/2045174875921481979
Catalyst——一个把生产 trace 转成小型、自改进、frontier 质量模型的 LLM 微调引擎，模型归用户所有。内部模型 Schematron 就是在这上面训和部署的。有意思在于它精准打到市场中段——那些有真实生产 trace 但没基础设施把这些 trace 变成训练信号的团队。如果说得通，这是把 autoresearch 应用到模型权重本身，而不是只应用到代码上。

💡#17

@omarsar0
https://x.com/omarsar0/status/2045241905227915498
Autogenesis——一个自进化 agent 协议：agent 自己识别能力缺口，生成候选改进，通过测试验证，把能用的整合回自己的运行框架。不需要重训，不需要人类打补丁——就是一个"评估、提议、验证、整合"的持续 loop。他把它放在 Meta-Harness 和 Darwin Gödel Machine 那条线里，说这是迄今在"持续自改进"这个问题上最清晰的协议层尝试之一。建议读原文。这些设计会定义将来"静态 agent 会很快老化"这句话的真正含义。

💡#18

@Underfox3
https://x.com/Underfox3/status/2045277944264749147
Nvidia 研究员演示了一个 agentic LLM 编程框架，自主地演化一个数百万行的 EDA 工具，范围覆盖整个 ABC 逻辑综合系统。自改进代码生成被应用到生产级工具——不是玩具 benchmark。如果这种结果能站得住脚，那同一个 agentic loop 模式不仅在绿地项目上能跑，连那些 20 年历史、原本被认为"改不动不划算"的代码库也能跑。

💡#19

@VictorATHER
https://x.com/VictorATHER/status/2045217042152718346
一个概念提案，带具体参考。一个闭环 AI 系统，模拟市场对 GTM 策略的反应，跑迭代式 A/B/n 实验，在真实部署前输出最优策略。参考仓库是 Karpathy 的 Autoresearch 和郭航江的 Mirofish。正好坐在"GTM × autoresearch"的交叉点——如果上面 Farcast 的 80% 结果是可复制的，这就是下一波 autoresearch 风格部署要落到的地方。

💡#20

@duin_dev
https://x.com/duin_dev/status/2045037721190608992
单开发者实况：只实现了一个极简的 write/recall memory tool，就把一个自改进 agent 搭起来了。agent 自己找到了自己的 memory，开始用它来自我改进。小轶事，但戳破了那些花哨论文偶尔模糊掉的那一点——自改进模式只要一个一下午就能写完的 memory 原语就能运转。

📡 生态产品雷达

生态产品雷达

pi-autoresearch: 当下的旗舰。给 "pi" AI 编程 agent 写的开源扩展，在终端里跑。给它一个目标（比如"把测试跑快"），它就进入一个无休止实验 loop——改代码、跑 benchmark、赢的留下、输的回退，所有过程写进 autoresearch.jsonl。周一起步，周二开源，周四 5K+ stars。Shopify 在用它跑单元测试、React 组件、CI 构建。

Karpathy's Autoresearch（原始模式）: 本篇里所有东西的精神源头。过夜在单 GPU 上跑 ML 实验：描述要探索什么，把 AI agent 指向 repo，醒来拿到 100+ 条被验证过的实验和完整 git history。agent 只 commit 改进。这个模式能泛化到任何"有可编辑文件 + 有可测指标"的场景。

Hermes Agent (Nous Research): 自改进 AI agent，可自托管，本地或 VPS 都能跑，每大约 15 次 tool call 自己写一条 skill，持久化 memory（MEMORY.md + USER.md + SQLite）。per-model tool-call 解析器让它成为当下本地模型最合适的 harness。Ollama 0.21 原生支持 Hermes。

Trackio / HF Jobs: 藏在 ben_burtenshaw 那套多 agent autoresearch 底下的监控层。reporter agent 把 job 事件和 metric 推到 Trackio dashboard，worker 在 GPU 上起 HF jobs。值得关注，因为它是第一次有人把"autoresearch 风格 loop 的可观测性"这件事标准化下来。

Autogenesis / Meta-Harness / Darwin Gödel Machine: 当下被反复提到的三个"协议层持续自改进"的参考点。Autogenesis（刚放出来）是最干净的协议尝试——评估、提议、验证、整合。如果你在想从单 loop autoresearch 往"能重写自己的 loop 的系统"走，这些是该读的。

task_budget_tokens: Opus 4.7 public beta 的一个参数，给模型一个覆盖整个 agentic loop 的 token 倒计时。多步任务里的 context collapse 大幅减少。被严重低估——大部分开发者既没设 task_budget_tokens 也没用 xhigh effort，虽然这两个对 agent 多步可靠性的影响是立竿见影的。

← 上一篇

超级用户日报: 2026年04月19日

灵感雷达: 2026年04月19日

← 返回所有文章

加载中...

Loop 日报: 2026年04月19日

更多文章

评论