2026年4月28日loop

Loop 日报: 2026-04-29

Autoresearch 已经不是 thought experiment 了，今天的信号是配方正在渗出到普通开发者的世界里。@RhysSullivan 第一次跑 autoresearch 用的 prompt 就是 '把这个 codebase 的 LOC 最小化'。@the_other_max 在 CI 流水线上挂了一夜，构建时间从 12.5 分钟砍到 7 分钟。@NicolasZu 直接发了一份公益指南，劝所有还有 Codex 周度 token 余额的人挂上过夜 autoresearch，覆盖游戏性能、平衡性、代码质量、UI 打磨、营销，每个都给出可量化的循环目标。@cyrusnewday 接住 Karpathy 的范式，开源了 gepa-research——把贪心爬山换成 Pareto 前沿探索。围绕这一切，编排器战争同时升温：evo、gepa-research、pi-mono/agent、FutureAGI 各自下注不同的 harness 设计，而 Hermes Agent 这周也丢出了更干净的 loop 中段干预原语。

💡#1

@NicolasZu
https://x.com/NicolasZu/status/2048706563343310862
公益提醒：还有 Codex 周度剩余 token 的别浪费，挂过夜 autoresearch。他自己今晚要跑的具体清单：游戏性能（循环到性能提升）、游戏平衡性（循环到平衡）、代码质量（循环到所有函数 CRAP < 30）、应用设计（循环到 UI 体感比之前精致 5 倍）、营销（循环到 50+ 个短视频钩子加示例链接）。643 赞、6.9 万曝光的原因不是结论，是配方具体——每个循环都有可度量的成功标准，不是泛泛的 'improve the thing'。Karpathy 的 autoresearch 写法这周开始走出推特线程、进入普通开发者的日常实践。

💡#2

@the_other_max
https://x.com/the_other_max/status/2048441071600857123
在自家 CI 流水线上挂了一夜 autoresearch，构建时间从 12.5 分钟砍到 7 分钟。现在已经在排查 codebase 里下一个该上同样手段的位置。重点不是 44% 的提速，而是 '把 autoresearch 挂在真实生产流水线上跑一夜' 这件事现在已经是一句推文就能晒收据，不再是论文。隐式 eval（构建优化后还能通过）做了所有重活。

💡#3

@RhysSullivan
https://x.com/RhysSullivan/status/2048609240647147635
今天第一次跑 autoresearch。Prompt 直接就是：把这个 codebase 的代码行数最小化，再加一些细节。他认为这可能是个不错的反 slop 措施，下一步想试 '最小化可能状态数'。3.8 万曝光的原因是 LOC 削减是几乎每个开发者都默认有的愿望。评论里诚实的提问问出了关键：跑出来的代码到底好不好？如何验证原有功能没坏？——暴露出所有抄这套配方的人都缺一个 eval 闸门。

💡#4

@cyrusnewday
https://x.com/cyrusnewday/status/2048903089022013545
开源 gepa-research，灵感来自 Karpathy 的 autoresearch，但内层搜索算法换了：不再是贪心爬山或者树搜索，而是用 @gepa_ai 探索 Pareto 前沿。几个小时拿到 321 赞、11.5 万曝光。Loop 这块出现的重要模式：大家不再原样克隆 Karpathy 的配方，而是保留外层 harness、把搜索组件换掉。这已经是一个有竞争的设计空间（贪心 vs 进化 vs Pareto vs MCTS），不再是一条标准回路。

💡#5

@AnirudhDabas
https://x.com/AnirudhDabas/status/2048829076840775849
写了一篇真实生产环境 autoresearch 案例：让 Shopify 商家对 AI agent 可见。文章覆盖了 shelf 内部循环、backpressure 阻挡 agent 跑飞、reward hacking 检测，最关键的承认是——做 eval 比做循环本身更难。大多数 autoresearch demo 都把这条藏起来了，他直接点出来。把 eval 命名为更难的问题这周正在变成共识（@omarsar0 在下面说 FutureAGI 时也讲同一件事）。

💡#6

@alokbishoyi97
https://x.com/alokbishoyi97/status/2048365285892125023
evo v0.3 发布——autoresearch 编排器，作为插件挂在 Claude Code / Codex / OpenClaw / Hermes Agent 之上。v0.3 新增 RLM、context fork 子 agent、内层循环再打磨。一整天他都在 autoresearch 推文底下到处约测试用户，甚至开出 '愿意为反馈通话给慈善机构捐款' 的条件。模式很清楚：编排器作者正在抢占用户，因为现在配方还小到能让人换平台。

💡#7

@metedata
https://x.com/metedata/status/2048803374586315193
用 Codex auto-research 循环搞定了一个老大难——把现有原生 app 的设计在 HTML 里复刻出来。流程：截图原生 app、截图 HTML 复刻、打分、迭代到 99%。早期效果不错，准备封装成 Claude Code skill 上 GitHub。视觉 eval 循环模式的一个具体落地——把截图差异当成度量函数——能解一类 loss function 在你写出来之前根本不存在的问题。

💡#8

@Teknium
https://x.com/Teknium/status/2048232396924088713
Hermes Agent 用法解释：跑 agent loop 的过程中你有 4 种和它互动的方式。(1) 直接发消息会打断 loop 强制响应；(2) /queue 排队等当前 loop 跑完再处理；(3) /bg 或 /btw 平行跑一个异步 prompt；(4) /steer 把指引注入到下一次工具调用结果里、不打断 loop。1.9K 赞、7.5 万曝光。/steer 这个原语才是真正的设计创新——它让你在长跑 autoresearch 走偏时能轻轻把它推回正道，不必杀掉整个会话失去 context。Claude Code 现在还没有这个。

💡#9

@AScully789
https://x.com/AScully789/status/2048878557749760039
教你脱离付费编码 agent 订阅的具体配方：买一台便宜小 VPS、上面跑一个大开源模型，然后用 autoresearch 把这个模型的输出速度专门针对这台小 VPS 做优化。优化好之后从笔记本无限调用、不再付商业 API 钱。两段式 autoresearch——先用循环优化承载层，再把承载层当成你的运行时。和 @RoundtableSpace 的免费 Claude Code 代理是从不同角度切入同一思路。

💡#10

@omarsar0
https://x.com/omarsar0/status/2048759865007591615
对所有想做 self-improving agent 的人立的硬规则：没有 eval 就别折腾。Agent 没办法从它自己看不懂的 trace 里改进。他举 @FutureAGI_ 当模板：开源整个 eval 平台，覆盖 hallucination / groundedness / PII / toxicity / 工具调用正确性，6 套 prompt 优化算法（GEPA、PromptWizard、ProTeGi 等），多轮语音模拟（LiveKit / VAPI / Retell / Pipecat），50+ 框架的 OpenTelemetry 原生追踪。论点：你不能信任的 self-improving agent 基础设施，比没有还糟。

💡#11

@imbue_ai
https://x.com/imbue_ai/status/2049174423757103217
大多数 agent 上来就开始写代码或者瞎猜计划。他们新出的 Blueprint 把顺序倒过来——先读你的 codebase，问真正成立的关键问题，再把一份值得执行的计划交给任意 agent。模式叫 planner-as-pre-loop：不要让 agent loop 在试错中发现计划（烧 token 留 slop），而是把规划前置成一轮刻意的 Q&A，autoresearch 循环再干净地消费它。

💡#12

@DivyanshT91162
https://x.com/DivyanshT91162/status/2048260029799711200
Pi mono/agent（pi-autoresearch 系列）现在读起来是互联网上最干净的 agent 循环：就几个文件，没有臃肿的 framework、没有过度设计的抽象。最高 cache hit rate、最低每会话 token 消耗、bug 极少，learning 和 production 都合适。这个帖子能站住，是因为 Pi 是上面那场编排器战争的反命题——有时候对的 harness 就是能闭合循环里最小的那个。Karpathy autoresearch 参考实现的同一血脉。

💡#13

@mstockton
https://x.com/mstockton/status/2048820005706334324
上手观察一个他在评估的新模式：把 provider 特定的工具调用复杂度推到子 agent 里，让主 agent loop 的 context 保持干净。当你接了多个 provider、它们的工具有重叠、你又控制不了这些工具往 context 里塞什么时，这个模式最有用。也直说一句——agent harness 设计现在还没有定论，eval 帮一些，但更多还是艺术不是科学。

💡#14

@erans
https://x.com/erans/status/2048831110696796619
做了一个微型 harness 把每一轮 Claude agent 都走 Anthropic 的 Batch API。结果：单个 agent 用太烂（每轮 90-120 秒直接杀死交互性），但对 fleet 可能很棒。洞察：Batch 不是 agent loop pattern，它是 fleet 优化层。用对的位置是同时跑很多慢 agent 那一层、不是单个快交互。附了 writeup 和代码。

💡#15

@ariccio
https://x.com/ariccio/status/2048608882465861877
现在大多数开发者才终于想通的事：要拿到 agentic 工具的全部好处，你必须真正闭合 agentic loop。他自己的做法：把整个应用栈搭起来跑全脚本化的 E2E 测试，真后端跑在本地，UI 像真实用户那样被驱动。配上日志跟踪、hang/crash 看门狗、其他 Claude Code 和 Codex/GPT 都不会主动检查的信号——你最后会得到一个几乎全自动运行的系统，因为反馈是即时且具体的。

💡#16

@yossry_i
https://x.com/yossry_i/status/2049121408278462692
对 skills.md 热潮的反推：agentic coding 不是手写 skills.md。Agent oriented learning 的核心是从与环境交互的经验里学习达成目标。你可以 bootstrap 你的 agent，但 skills.md 和 goals.md 应该让 agent 自己更新。从手工 prompt engineering 切到 agent 在循环运行的副作用里维护自己的记忆产物。

💡#17

@AymericRoucher
https://x.com/AymericRoucher/status/2049151467555373146
Poolside 在 Hugging Face 上发了第一批公开模型：225B-23B-active 和 33B-3A 两个 coder 模型，混合 attention（3:1 global 与 sliding window），KV cache 量化到 FP8，效果接近 SOTA、大致与 Qwen-3.5 平起平坐，Apache 2.0 协议。同时发了 pool——他们的 CLI 编码 agent。一次释放三件事：前沿级开源 coder 模型、有竞争力的编码 agent CLI、真正的开源协议——Poolside 正式作为严肃玩家进入 orchestrator vs model 的话题。

📡 生态产品雷达

生态产品雷达

| 工具 | 提及次数 | 备注 |
| --- | --- | --- |
| autoresearch（Karpathy 范式） | 36+ | 总称；配方正在向主流开发者渗出 |
| evo (alokbishoyi97) | 8+ | 挂在 Claude Code/Codex/OpenClaw/Hermes 上的插件式编排器 |
| gepa-research / GEPA | 5+ | 用 Pareto 前沿探索替代贪心/树搜索 |
| pi-mono / pi-agent | 5+ | 最小可闭合循环参考实现，最高 cache hit rate |
| Hermes Agent | 7+ | /steer 中段干预原语 + 4 种交互模式 |
| Codex | 12+ | 余 token 用户首选的 auto-research 宿主 |
| Claude Code | 11+ | 经常做 harness、经常撞限额、经常被替代 |
| FutureAGI | 3+ | self-improving agent 的开源 eval 平台 |
| Poolside / pool CLI | 3+ | 新开源 coder 模型 + agent CLI |
| Blueprint (imbue_ai) | 3+ | planner-as-pre-loop 模式 |

← 上一篇

超级用户日报: 2026-04-29

灵感雷达: 2026-04-29

← 返回所有文章

加载中...

Loop 日报: 2026-04-29

更多文章

评论