Loop 日报: 2026-04-29
Autoresearch 已经不是 thought experiment 了,今天的信号是配方正在渗出到普通开发者的世界里。@RhysSullivan 第一次跑 autoresearch 用的 prompt 就是 '把这个 codebase 的 LOC 最小化'。@the_other_max 在 CI 流水线上挂了一夜,构建时间从 12.5 分钟砍到 7 分钟。@NicolasZu 直接发了一份公益指南,劝所有还有 Codex 周度 token 余额的人挂上过夜 autoresearch,覆盖游戏性能、平衡性、代码质量、UI 打磨、营销,每个都给出可量化的循环目标。@cyrusnewday 接住 Karpathy 的范式,开源了 gepa-research——把贪心爬山换成 Pareto 前沿探索。围绕这一切,编排器战争同时升温:evo、gepa-research、pi-mono/agent、FutureAGI 各自下注不同的 harness 设计,而 Hermes Agent 这周也丢出了更干净的 loop 中段干预原语。
#1
@NicolasZu
https://x.com/NicolasZu/status/2048706563343310862
公益提醒:还有 Codex 周度剩余 token 的别浪费,挂过夜 autoresearch。他自己今晚要跑的具体清单:游戏性能(循环到性能提升)、游戏平衡性(循环到平衡)、代码质量(循环到所有函数 CRAP < 30)、应用设计(循环到 UI 体感比之前精致 5 倍)、营销(循环到 50+ 个短视频钩子加示例链接)。643 赞、6.9 万曝光的原因不是结论,是配方具体——每个循环都有可度量的成功标准,不是泛泛的 'improve the thing'。Karpathy 的 autoresearch 写法这周开始走出推特线程、进入普通开发者的日常实践。
https://x.com/NicolasZu/status/2048706563343310862
公益提醒:还有 Codex 周度剩余 token 的别浪费,挂过夜 autoresearch。他自己今晚要跑的具体清单:游戏性能(循环到性能提升)、游戏平衡性(循环到平衡)、代码质量(循环到所有函数 CRAP < 30)、应用设计(循环到 UI 体感比之前精致 5 倍)、营销(循环到 50+ 个短视频钩子加示例链接)。643 赞、6.9 万曝光的原因不是结论,是配方具体——每个循环都有可度量的成功标准,不是泛泛的 'improve the thing'。Karpathy 的 autoresearch 写法这周开始走出推特线程、进入普通开发者的日常实践。
#2
@the_other_max
https://x.com/the_other_max/status/2048441071600857123
在自家 CI 流水线上挂了一夜 autoresearch,构建时间从 12.5 分钟砍到 7 分钟。现在已经在排查 codebase 里下一个该上同样手段的位置。重点不是 44% 的提速,而是 '把 autoresearch 挂在真实生产流水线上跑一夜' 这件事现在已经是一句推文就能晒收据,不再是论文。隐式 eval(构建优化后还能通过)做了所有重活。
https://x.com/the_other_max/status/2048441071600857123
在自家 CI 流水线上挂了一夜 autoresearch,构建时间从 12.5 分钟砍到 7 分钟。现在已经在排查 codebase 里下一个该上同样手段的位置。重点不是 44% 的提速,而是 '把 autoresearch 挂在真实生产流水线上跑一夜' 这件事现在已经是一句推文就能晒收据,不再是论文。隐式 eval(构建优化后还能通过)做了所有重活。
#3
@RhysSullivan
https://x.com/RhysSullivan/status/2048609240647147635
今天第一次跑 autoresearch。Prompt 直接就是:把这个 codebase 的代码行数最小化,再加一些细节。他认为这可能是个不错的反 slop 措施,下一步想试 '最小化可能状态数'。3.8 万曝光的原因是 LOC 削减是几乎每个开发者都默认有的愿望。评论里诚实的提问问出了关键:跑出来的代码到底好不好?如何验证原有功能没坏?——暴露出所有抄这套配方的人都缺一个 eval 闸门。
https://x.com/RhysSullivan/status/2048609240647147635
今天第一次跑 autoresearch。Prompt 直接就是:把这个 codebase 的代码行数最小化,再加一些细节。他认为这可能是个不错的反 slop 措施,下一步想试 '最小化可能状态数'。3.8 万曝光的原因是 LOC 削减是几乎每个开发者都默认有的愿望。评论里诚实的提问问出了关键:跑出来的代码到底好不好?如何验证原有功能没坏?——暴露出所有抄这套配方的人都缺一个 eval 闸门。
#4
@cyrusnewday
https://x.com/cyrusnewday/status/2048903089022013545
开源 gepa-research,灵感来自 Karpathy 的 autoresearch,但内层搜索算法换了:不再是贪心爬山或者树搜索,而是用 @gepa_ai 探索 Pareto 前沿。几个小时拿到 321 赞、11.5 万曝光。Loop 这块出现的重要模式:大家不再原样克隆 Karpathy 的配方,而是保留外层 harness、把搜索组件换掉。这已经是一个有竞争的设计空间(贪心 vs 进化 vs Pareto vs MCTS),不再是一条标准回路。
https://x.com/cyrusnewday/status/2048903089022013545
开源 gepa-research,灵感来自 Karpathy 的 autoresearch,但内层搜索算法换了:不再是贪心爬山或者树搜索,而是用 @gepa_ai 探索 Pareto 前沿。几个小时拿到 321 赞、11.5 万曝光。Loop 这块出现的重要模式:大家不再原样克隆 Karpathy 的配方,而是保留外层 harness、把搜索组件换掉。这已经是一个有竞争的设计空间(贪心 vs 进化 vs Pareto vs MCTS),不再是一条标准回路。
#5
@AnirudhDabas
https://x.com/AnirudhDabas/status/2048829076840775849
写了一篇真实生产环境 autoresearch 案例:让 Shopify 商家对 AI agent 可见。文章覆盖了 shelf 内部循环、backpressure 阻挡 agent 跑飞、reward hacking 检测,最关键的承认是——做 eval 比做循环本身更难。大多数 autoresearch demo 都把这条藏起来了,他直接点出来。把 eval 命名为更难的问题这周正在变成共识(@omarsar0 在下面说 FutureAGI 时也讲同一件事)。
https://x.com/AnirudhDabas/status/2048829076840775849
写了一篇真实生产环境 autoresearch 案例:让 Shopify 商家对 AI agent 可见。文章覆盖了 shelf 内部循环、backpressure 阻挡 agent 跑飞、reward hacking 检测,最关键的承认是——做 eval 比做循环本身更难。大多数 autoresearch demo 都把这条藏起来了,他直接点出来。把 eval 命名为更难的问题这周正在变成共识(@omarsar0 在下面说 FutureAGI 时也讲同一件事)。
#6
@alokbishoyi97
https://x.com/alokbishoyi97/status/2048365285892125023
evo v0.3 发布——autoresearch 编排器,作为插件挂在 Claude Code / Codex / OpenClaw / Hermes Agent 之上。v0.3 新增 RLM、context fork 子 agent、内层循环再打磨。一整天他都在 autoresearch 推文底下到处约测试用户,甚至开出 '愿意为反馈通话给慈善机构捐款' 的条件。模式很清楚:编排器作者正在抢占用户,因为现在配方还小到能让人换平台。
https://x.com/alokbishoyi97/status/2048365285892125023
evo v0.3 发布——autoresearch 编排器,作为插件挂在 Claude Code / Codex / OpenClaw / Hermes Agent 之上。v0.3 新增 RLM、context fork 子 agent、内层循环再打磨。一整天他都在 autoresearch 推文底下到处约测试用户,甚至开出 '愿意为反馈通话给慈善机构捐款' 的条件。模式很清楚:编排器作者正在抢占用户,因为现在配方还小到能让人换平台。
#7
@metedata
https://x.com/metedata/status/2048803374586315193
用 Codex auto-research 循环搞定了一个老大难——把现有原生 app 的设计在 HTML 里复刻出来。流程:截图原生 app、截图 HTML 复刻、打分、迭代到 99%。早期效果不错,准备封装成 Claude Code skill 上 GitHub。视觉 eval 循环模式的一个具体落地——把截图差异当成度量函数——能解一类 loss function 在你写出来之前根本不存在的问题。
https://x.com/metedata/status/2048803374586315193
用 Codex auto-research 循环搞定了一个老大难——把现有原生 app 的设计在 HTML 里复刻出来。流程:截图原生 app、截图 HTML 复刻、打分、迭代到 99%。早期效果不错,准备封装成 Claude Code skill 上 GitHub。视觉 eval 循环模式的一个具体落地——把截图差异当成度量函数——能解一类 loss function 在你写出来之前根本不存在的问题。
#8
@Teknium
https://x.com/Teknium/status/2048232396924088713
Hermes Agent 用法解释:跑 agent loop 的过程中你有 4 种和它互动的方式。(1) 直接发消息会打断 loop 强制响应;(2) /queue 排队等当前 loop 跑完再处理;(3) /bg 或 /btw 平行跑一个异步 prompt;(4) /steer 把指引注入到下一次工具调用结果里、不打断 loop。1.9K 赞、7.5 万曝光。/steer 这个原语才是真正的设计创新——它让你在长跑 autoresearch 走偏时能轻轻把它推回正道,不必杀掉整个会话失去 context。Claude Code 现在还没有这个。
https://x.com/Teknium/status/2048232396924088713
Hermes Agent 用法解释:跑 agent loop 的过程中你有 4 种和它互动的方式。(1) 直接发消息会打断 loop 强制响应;(2) /queue 排队等当前 loop 跑完再处理;(3) /bg 或 /btw 平行跑一个异步 prompt;(4) /steer 把指引注入到下一次工具调用结果里、不打断 loop。1.9K 赞、7.5 万曝光。/steer 这个原语才是真正的设计创新——它让你在长跑 autoresearch 走偏时能轻轻把它推回正道,不必杀掉整个会话失去 context。Claude Code 现在还没有这个。
#9
@AScully789
https://x.com/AScully789/status/2048878557749760039
教你脱离付费编码 agent 订阅的具体配方:买一台便宜小 VPS、上面跑一个大开源模型,然后用 autoresearch 把这个模型的输出速度专门针对这台小 VPS 做优化。优化好之后从笔记本无限调用、不再付商业 API 钱。两段式 autoresearch——先用循环优化承载层,再把承载层当成你的运行时。和 @RoundtableSpace 的免费 Claude Code 代理是从不同角度切入同一思路。
https://x.com/AScully789/status/2048878557749760039
教你脱离付费编码 agent 订阅的具体配方:买一台便宜小 VPS、上面跑一个大开源模型,然后用 autoresearch 把这个模型的输出速度专门针对这台小 VPS 做优化。优化好之后从笔记本无限调用、不再付商业 API 钱。两段式 autoresearch——先用循环优化承载层,再把承载层当成你的运行时。和 @RoundtableSpace 的免费 Claude Code 代理是从不同角度切入同一思路。
#10
@omarsar0
https://x.com/omarsar0/status/2048759865007591615
对所有想做 self-improving agent 的人立的硬规则:没有 eval 就别折腾。Agent 没办法从它自己看不懂的 trace 里改进。他举 @FutureAGI_ 当模板:开源整个 eval 平台,覆盖 hallucination / groundedness / PII / toxicity / 工具调用正确性,6 套 prompt 优化算法(GEPA、PromptWizard、ProTeGi 等),多轮语音模拟(LiveKit / VAPI / Retell / Pipecat),50+ 框架的 OpenTelemetry 原生追踪。论点:你不能信任的 self-improving agent 基础设施,比没有还糟。
https://x.com/omarsar0/status/2048759865007591615
对所有想做 self-improving agent 的人立的硬规则:没有 eval 就别折腾。Agent 没办法从它自己看不懂的 trace 里改进。他举 @FutureAGI_ 当模板:开源整个 eval 平台,覆盖 hallucination / groundedness / PII / toxicity / 工具调用正确性,6 套 prompt 优化算法(GEPA、PromptWizard、ProTeGi 等),多轮语音模拟(LiveKit / VAPI / Retell / Pipecat),50+ 框架的 OpenTelemetry 原生追踪。论点:你不能信任的 self-improving agent 基础设施,比没有还糟。
#11
@imbue_ai
https://x.com/imbue_ai/status/2049174423757103217
大多数 agent 上来就开始写代码或者瞎猜计划。他们新出的 Blueprint 把顺序倒过来——先读你的 codebase,问真正成立的关键问题,再把一份值得执行的计划交给任意 agent。模式叫 planner-as-pre-loop:不要让 agent loop 在试错中发现计划(烧 token 留 slop),而是把规划前置成一轮刻意的 Q&A,autoresearch 循环再干净地消费它。
https://x.com/imbue_ai/status/2049174423757103217
大多数 agent 上来就开始写代码或者瞎猜计划。他们新出的 Blueprint 把顺序倒过来——先读你的 codebase,问真正成立的关键问题,再把一份值得执行的计划交给任意 agent。模式叫 planner-as-pre-loop:不要让 agent loop 在试错中发现计划(烧 token 留 slop),而是把规划前置成一轮刻意的 Q&A,autoresearch 循环再干净地消费它。
#12
@DivyanshT91162
https://x.com/DivyanshT91162/status/2048260029799711200
Pi mono/agent(pi-autoresearch 系列)现在读起来是互联网上最干净的 agent 循环:就几个文件,没有臃肿的 framework、没有过度设计的抽象。最高 cache hit rate、最低每会话 token 消耗、bug 极少,learning 和 production 都合适。这个帖子能站住,是因为 Pi 是上面那场编排器战争的反命题——有时候对的 harness 就是能闭合循环里最小的那个。Karpathy autoresearch 参考实现的同一血脉。
https://x.com/DivyanshT91162/status/2048260029799711200
Pi mono/agent(pi-autoresearch 系列)现在读起来是互联网上最干净的 agent 循环:就几个文件,没有臃肿的 framework、没有过度设计的抽象。最高 cache hit rate、最低每会话 token 消耗、bug 极少,learning 和 production 都合适。这个帖子能站住,是因为 Pi 是上面那场编排器战争的反命题——有时候对的 harness 就是能闭合循环里最小的那个。Karpathy autoresearch 参考实现的同一血脉。
#13
@mstockton
https://x.com/mstockton/status/2048820005706334324
上手观察一个他在评估的新模式:把 provider 特定的工具调用复杂度推到子 agent 里,让主 agent loop 的 context 保持干净。当你接了多个 provider、它们的工具有重叠、你又控制不了这些工具往 context 里塞什么时,这个模式最有用。也直说一句——agent harness 设计现在还没有定论,eval 帮一些,但更多还是艺术不是科学。
https://x.com/mstockton/status/2048820005706334324
上手观察一个他在评估的新模式:把 provider 特定的工具调用复杂度推到子 agent 里,让主 agent loop 的 context 保持干净。当你接了多个 provider、它们的工具有重叠、你又控制不了这些工具往 context 里塞什么时,这个模式最有用。也直说一句——agent harness 设计现在还没有定论,eval 帮一些,但更多还是艺术不是科学。
#14
@erans
https://x.com/erans/status/2048831110696796619
做了一个微型 harness 把每一轮 Claude agent 都走 Anthropic 的 Batch API。结果:单个 agent 用太烂(每轮 90-120 秒直接杀死交互性),但对 fleet 可能很棒。洞察:Batch 不是 agent loop pattern,它是 fleet 优化层。用对的位置是同时跑很多慢 agent 那一层、不是单个快交互。附了 writeup 和代码。
https://x.com/erans/status/2048831110696796619
做了一个微型 harness 把每一轮 Claude agent 都走 Anthropic 的 Batch API。结果:单个 agent 用太烂(每轮 90-120 秒直接杀死交互性),但对 fleet 可能很棒。洞察:Batch 不是 agent loop pattern,它是 fleet 优化层。用对的位置是同时跑很多慢 agent 那一层、不是单个快交互。附了 writeup 和代码。
#15
@ariccio
https://x.com/ariccio/status/2048608882465861877
现在大多数开发者才终于想通的事:要拿到 agentic 工具的全部好处,你必须真正闭合 agentic loop。他自己的做法:把整个应用栈搭起来跑全脚本化的 E2E 测试,真后端跑在本地,UI 像真实用户那样被驱动。配上日志跟踪、hang/crash 看门狗、其他 Claude Code 和 Codex/GPT 都不会主动检查的信号——你最后会得到一个几乎全自动运行的系统,因为反馈是即时且具体的。
https://x.com/ariccio/status/2048608882465861877
现在大多数开发者才终于想通的事:要拿到 agentic 工具的全部好处,你必须真正闭合 agentic loop。他自己的做法:把整个应用栈搭起来跑全脚本化的 E2E 测试,真后端跑在本地,UI 像真实用户那样被驱动。配上日志跟踪、hang/crash 看门狗、其他 Claude Code 和 Codex/GPT 都不会主动检查的信号——你最后会得到一个几乎全自动运行的系统,因为反馈是即时且具体的。
#16
@yossry_i
https://x.com/yossry_i/status/2049121408278462692
对 skills.md 热潮的反推:agentic coding 不是手写 skills.md。Agent oriented learning 的核心是从与环境交互的经验里学习达成目标。你可以 bootstrap 你的 agent,但 skills.md 和 goals.md 应该让 agent 自己更新。从手工 prompt engineering 切到 agent 在循环运行的副作用里维护自己的记忆产物。
https://x.com/yossry_i/status/2049121408278462692
对 skills.md 热潮的反推:agentic coding 不是手写 skills.md。Agent oriented learning 的核心是从与环境交互的经验里学习达成目标。你可以 bootstrap 你的 agent,但 skills.md 和 goals.md 应该让 agent 自己更新。从手工 prompt engineering 切到 agent 在循环运行的副作用里维护自己的记忆产物。
#17
@AymericRoucher
https://x.com/AymericRoucher/status/2049151467555373146
Poolside 在 Hugging Face 上发了第一批公开模型:225B-23B-active 和 33B-3A 两个 coder 模型,混合 attention(3:1 global 与 sliding window),KV cache 量化到 FP8,效果接近 SOTA、大致与 Qwen-3.5 平起平坐,Apache 2.0 协议。同时发了 pool——他们的 CLI 编码 agent。一次释放三件事:前沿级开源 coder 模型、有竞争力的编码 agent CLI、真正的开源协议——Poolside 正式作为严肃玩家进入 orchestrator vs model 的话题。
https://x.com/AymericRoucher/status/2049151467555373146
Poolside 在 Hugging Face 上发了第一批公开模型:225B-23B-active 和 33B-3A 两个 coder 模型,混合 attention(3:1 global 与 sliding window),KV cache 量化到 FP8,效果接近 SOTA、大致与 Qwen-3.5 平起平坐,Apache 2.0 协议。同时发了 pool——他们的 CLI 编码 agent。一次释放三件事:前沿级开源 coder 模型、有竞争力的编码 agent CLI、真正的开源协议——Poolside 正式作为严肃玩家进入 orchestrator vs model 的话题。
📡 生态产品雷达
生态产品雷达
| 工具 | 提及次数 | 备注 |
| --- | --- | --- |
| autoresearch(Karpathy 范式) | 36+ | 总称;配方正在向主流开发者渗出 |
| evo (alokbishoyi97) | 8+ | 挂在 Claude Code/Codex/OpenClaw/Hermes 上的插件式编排器 |
| gepa-research / GEPA | 5+ | 用 Pareto 前沿探索替代贪心/树搜索 |
| pi-mono / pi-agent | 5+ | 最小可闭合循环参考实现,最高 cache hit rate |
| Hermes Agent | 7+ | /steer 中段干预原语 + 4 种交互模式 |
| Codex | 12+ | 余 token 用户首选的 auto-research 宿主 |
| Claude Code | 11+ | 经常做 harness、经常撞限额、经常被替代 |
| FutureAGI | 3+ | self-improving agent 的开源 eval 平台 |
| Poolside / pool CLI | 3+ | 新开源 coder 模型 + agent CLI |
| Blueprint (imbue_ai) | 3+ | planner-as-pre-loop 模式 |
| 工具 | 提及次数 | 备注 |
| --- | --- | --- |
| autoresearch(Karpathy 范式) | 36+ | 总称;配方正在向主流开发者渗出 |
| evo (alokbishoyi97) | 8+ | 挂在 Claude Code/Codex/OpenClaw/Hermes 上的插件式编排器 |
| gepa-research / GEPA | 5+ | 用 Pareto 前沿探索替代贪心/树搜索 |
| pi-mono / pi-agent | 5+ | 最小可闭合循环参考实现,最高 cache hit rate |
| Hermes Agent | 7+ | /steer 中段干预原语 + 4 种交互模式 |
| Codex | 12+ | 余 token 用户首选的 auto-research 宿主 |
| Claude Code | 11+ | 经常做 harness、经常撞限额、经常被替代 |
| FutureAGI | 3+ | self-improving agent 的开源 eval 平台 |
| Poolside / pool CLI | 3+ | 新开源 coder 模型 + agent CLI |
| Blueprint (imbue_ai) | 3+ | planner-as-pre-loop 模式 |
评论