2026年5月4日loop

Loop 日报: 2026-05-05

Karpathy 那个 630 行的 Auto Research 脚本现在成了 agentic loop 讨论的引力中心——把它指向已经优化过的代码扔在那跑一晚上，跑了 83 个实验，找到 15 个真正的改进，包括人类没注意到的一个 attention bug，最终带来 11% 的提速。几天 GitHub 上 21k star。沿着这条线衍生出的判断很狠：现在任何拥有消费级 GPU 或者 Mac mini 的人，都能跑三周前还只有大厂能跑的那种 autoresearch。周日的讨论已经不再是"autoresearch 行不行"，而是怎么把它应用到金融市场、代码优化、bug 猎杀、甚至 Hermes 重写自己的源码。再加上两个反面教材：那个 15 万美元 Anthropic 账单的真相，和一个还没人正经讨论的 eval 过拟合问题。

💡#1

@deltnaodeai
https://x.com/deltnaodeai/status/2050931026134962315
对 Karpathy Auto Research 为什么重要，这是这周最干净的一种解释。他把一个 630 行 Python 脚本指向已经优化过的代码，让它跑一晚上。它自主跑了 83 个实验。15 个是真正的改进。它找到了人类漏掉的一个 attention bug。在调过的代码上 11% 提速。21k GitHub star，还在涨。作者的判断是对的：这不是编程助手——这是自主科学实验。最有意思的是它推出来的隐含逻辑：优化的瓶颈从来不是想法，是耐心去通宵跑 83 个实验。现在耐心是一个脚本。

💡#2

@safakkayran
https://x.com/safakkayran/status/2051060142909665589
Karpathy autoresearch 应用到金融市场——ATLAS-GIC。25+ 个 AI agent 每天在 4 层结构里辩论市场。README 里埋的核心结构性洞察："prompts are the weights. Sharpe is the loss function."（提示词是权重，夏普率是 loss function）。表现最差的 agent 自己重写或者被淘汰。18 个月回测：22% 实盘收益。开源，1.5k star。这是这批数据里 autoresearch 应用到非编码领域最干净的一个——agent 本身就是被训练的模型参数，风险调整收益是梯度。回测数字打个折看，架构本身才是有意思的部分。

💡#3

@quantscience_
https://x.com/quantscience_/status/2050967676852285544
跟 ATLAS-GIC 是同一个项目，作者自己的描述。他明确把三个概念叠加起来：Karpathy autoresearch + 索罗斯反身性 + MiroFish 群体 agent。组合上最有意思的地方是：索罗斯反身性（市场被交易者关于市场的信念递归塑造）跟多 agent 辩论结构天然贴合——每个 agent 这一轮的判断会改变其他 agent 下一轮看到的东西。这条 7 小时拿了 1700 阅读，仓库链接在线程里。哪怕你完全不关心交易也值得读，"prompts are weights" 这个 framing 是精华。

💡#4

@oddur
https://x.com/oddur/status/2050848068958884000
用 Karpathy autoresearch 给 seedmmo 找出最佳的 GPU + VLLM + Gemma4 推理配置。把评估和改配置的能力交给 agent，扔在那跑一晚上，醒来时收到一份 findings.md。这才是大多数工程师最该先跑的用例——不是金融市场、不是新颖科研，就是简单的"这是我的配置空间，这是 benchmark，找出最佳设置"。"最后给一份 findings.md"这个细节就是它达到生产级的标志。这是 autoresearch 从科幻变成运维基础设施的临界点。

💡#5

@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2051033330179506563
"现在最大的事是没人意识到，任何拥有消费级 GPU 或 Mac 的人都能在家做 autoresearch 和优化，而几周前这只有有海量数据/算力的实验室能做。"这是把这周所有线索串起来的元观察。还没被完全定价的隐含含义：优化已经被民主化了。如果你有一块 3090 加一个晚上，你拥有的就是三周前 OpenAI 一个 ablation team 拥有的东西。大厂在常规模型/配置优化上的护城河刚刚塌了一块。

💡#6

@StijnSmits
https://x.com/StijnSmits/status/2050929771941437713
关于 autoresearch 这周最有用的一个警告。"用 (pi-)autoresearch 之类的工具优化系统提示词最棘手的地方是它会过拟合到 evals，悄悄地砸烂分布外的多轮表现。"为什么这事重要：大部分 autoresearch 循环用 benchmark 当 loss function，但真实生产流量天然是多轮的、分布外的。模型可能 eval 上很完美但生产上是坏的。如果你正在跑 autoresearch loop，要加上的问题是："我的 OOD 多轮回归测试是什么？"

💡#7

@alokbishoyi97
https://x.com/alokbishoyi97/status/2051070089856962924
开源了一个 autoresearch 编排器（evo），支持 Hermes Agent 加遗传树搜索，还能用自定义的前沿挑选策略（GEPA、eps-greedy）。v0.4 预告加远程沙箱——可以在 Modal、e2b、Daytona、AWS、Azure 或者任何能 SSH 的盒子上启动实验。Evo 处理 workspace、运行时环境、日志、trace，把实验扩展到任何能付得起的算力上。最有意思的设计选择：让 autoresearch 循环跟基础设施解耦，所以你能在任何能买到的算力上跑。线程里他在密集回复，发版速度很快。值得追。

💡#8

@yx3io
https://x.com/yx3io/status/2051053458107584837
也许是这批数据里哲学上最有意思的 agent loop：自我指涉的 agent 循环，Hermes 看着自己的源码每天变化，试图理解自己在变成什么。作者把 agent 自己的 diff 历史当做输入信号，让它讲述自己的演化。这是 Karpathy autoresearch 想法的奇异环版本——agent 不是在优化代码，是在写它对自己的内部模型。963 阅读，21 个赞。没人为生产理由这么干，所以才有意思。

💡#9

@samhogan / @peyman_razaghi
https://x.com/peyman_razaghi/status/2051032733158412333
HALO——分层 Agent Loop 优化器。基于 RLM 的 agent 优化技术，能递归自改进。转推抓住的 framing 是：与其在静态 prompt 上跑 autoresearch loop，HALO 直接作用在循环结构本身上。编排层重写 agent 怎么拆解任务的策略。跟 Karpathy autoresearch 的尺度不同：Karpathy 优化代码表面，HALO 优化 agent 的规划策略。

💡#10

@chenzeling4
https://x.com/chenzeling4/status/2050814372486811723
HALO 的数据和出处：424 star，来自 context-labs，RLM 评估输出并生成反馈来改进每轮行为。在 AppWorld 上做基准。Python。值得关注的数字：424 star 还很小，意思是你还有时间在它变成默认模式之前先把这个代码读完。AppWorld 是合适的 benchmark 选择——它专门衡量 agent 在真实应用里跨多步使用工具的能力，不是那种刻意单次调用的 benchmark。

💡#11

@willleebuilds
https://x.com/willleebuilds/status/2051074552134799638
DeepClaude 把 Claude Code 的 agent loop 包在 DeepSeek V4 Pro 外面，号称便宜 17 倍。作者的分析才是值得引用的部分："有意思的不是省钱。是这个 harness 现在可移植了。Loop 才是护城河，不是它后面的模型。"这是贯穿整天讨论的关键判断——Anthropic 的 Claude Code 越来越被当成一个独立于 Anthropic 实际模型的控制循环。如果这个 loop 能在 DeepSeek、Codex、OpenRouter 之间通用，那"哪个模型最好"的问题就没"哪个 loop 最可扩展"重要了。

💡#12

@UfukDegen
https://x.com/UfukDegen/status/2051088239579345329
Noustiny——构建在 Nous Research 的 Hermes Agent 之上，是这周任何人发布过的最具体的 agentic-loop 视频创作流水线。12 个通用 Hermes 工具加 13 个 skill，组织成四个流水线：故事状态、角色一致性、声音、渲染。故事树图管理 canon、分支、插入。角色流水线跑 IP 清洗 → 头像生成 → 注册表查找 → 别名解析。声音流水线跑角色定调 → 样本采集（yt-dlp + ffmpeg）→ ElevenLabs IVC 克隆 → 渲染后清理缓存的 voice ID。架构上最重要的一点：Hermes 本身没改，所有这些都是注册表兼容的插件。19046 阅读，281 赞。GitHub 上开源。这就是"agent-native 软件"该有的样子。

💡#13

@morefishoil
https://x.com/morefishoil/status/2050948112894824527
这周关于 agent loop 最实操的诊断："每一个 MCP 工具的 schema 在每一轮开头都会被重新注入，即便没改过——这就是 2-5K token/轮的闲置消耗。把 schema pin 住加上 ephemeral cache control，能在一个 12 步 agent loop 里省下大约 30K token。"这正是那种 autoresearch 能挖出来但人通常懒得查的管道级优化。如果你在跑多步 agent，账单看起来神秘，先查这个。

💡#14

@justgrm
https://x.com/justgrm/status/2050939174891446492
记录了一段配置 prompt，可以让 Claude Code 的 agent loop 走 OpenRouter 跑在 Anthropic 服务器之外。Agent loop、skills、harness 都保持不变——只有请求的端点换了。作者说视频发布以来这段 prompt 已经被填进去几万次。这跟 DeepClaude 是同一个观察的另一个侧面：Claude Code 的 loop 跟底层模型解耦了。Anthropic 唯一把它锁在 Claude 内部的东西没了。无论你同不同意作者的 framing，这个旁路真的能用，且很多人在用。

💡#15

@MystiqueMide
https://x.com/MystiqueMide/status/2051031692434178206
14 天 Hermes Agent 实验，全程承诺：只用 Hermes，不搭 OpenCode，连 OpenAI API + DeepSeek API，VPS 上 24/7 运行。理由：持续运行、随时间真的会改进、轻量、能接开源模型、跨多个 provider 连接。他在专门测自我改进这个声称——Hermes 的 procedure 文件在两周无人值守的运行下到底会不会复利？结果待报告。值得追。

💡#16

@VivekIntel / @dr_sensor (RT)
https://x.com/VivekIntel/status/2050957303734735007
Hermes Alpha——自我改进的 Bug Bounty AI，干净的双代理架构。Overseer 负责策略，Hunter 负责执行。完全自主。最有意思的设计选择是显式的角色分离：大部分"自我改进"的 agent 把规划和执行混在一起，导致没法判断瓶颈在哪边。把它们拆开，你就在策略层得到了一个可衡量的反馈循环。

💡#17

@RohanParija1
https://x.com/RohanParija1/status/2051041832373739773
Purpose-Agent。其他 agent 都是 run→fail→retry，没记忆、没学习。Purpose-Agent 引入一个"Purpose Function"，给每一步打 0-10 分，给智能反馈，把失败转成启发式 + 记忆。声称：1.7B 模型 run 1 失败、run 3 解决。本地优先、自我改进、不用 fine-tuning。这是 Karpathy autoresearch 思想下沉到 agent 步骤层，而不是全局研究层——每一步都被打分，启发式不断累积。1.7B-第三轮解决的声称在更多领域是否成立还要看，但架构原则——给步骤打分而不是只看最终输出——是真有用的。

💡#18

@BretKerr
https://x.com/BretKerr/status/2051038169894642092
对那个著名的"Anthropic 月账单 15 万美元"事件做了法医级复盘。真实机制：罗马尼亚开发者"Claudiu"留了一个无人监督的 agentic loop 跑了一整个计费周期。loop 是无限的。把这件事当做"AI 编程的成本"来引用，跟把忘了关的 EC2 集群当云成本来引用是一回事。作者的完整数学：拉满的多 agent 预算大约 400 美元/月，全成本美国工程师 16-21k 美元/月，所以 AI 是一个工程师的 2.4%。如果它给你 15% 的生产力提升，就是 525% ROI。真正隐藏的成本来源：Claude Code 的 1 小时 prompt cache，你离开 61 分钟它就 evict 了，下一次 prompt 就是把你百万 token 的仓库全量 context 写一遍。"账单是从空闲里出来的。"

💡#19

@leo_liuye
https://x.com/leo_liuye/status/2051044599876272344
"@karpathy 把 autoresearch 比喻成研究社区而不是单个 PhD——这正是对的 framing。我们在商业决策里跑同一个模式。不是一个 AI 分析师。一个 agent 网络，互相辩论、挑战、在彼此结论上构建。复合智能。"这是 autoresearch 思想最干净的非编码映射之一。framing 很关键：单个 AI 分析师不过是个吹起来的电子表格，但一个互相证伪的 agent 网络给你的东西更接近真正的判断力。架构模式跟上面 ATLAS 交易系统一样，应用到企业决策。

💡#20

@DROOdotFOO
https://x.com/DROOdotFOO/status/2050879188559692148
发了几个 MIT 协议的 autoresearch agent skill，归在 Meta 类别下。作者明确点了 autoresearch skill："你随便改，但方向上它在 mule ai 账户上一直在干活。"这句话——"在 mule ai 账户上干活"——是 tell。某个人有一个 agent skill 在他真在乎的真实生产账户上悄悄跑 autoresearch，且在出活。不是 demo、不是 benchmark，就是一个资产在做它的工作。值得拿来用。

💡#21

@cyrilXBT
https://x.com/cyrilXBT/status/2050897489285488814
NVIDIA Nematron 3 Nano Omni——把多工具工作流坍缩成一个 agent loop。读文档、看仪表盘、听语音备忘、处理视频 demo、扫社区帖子、分析图表。不是一个一个来。是一次同时全部处理。然后把结果变成结构化输出：报告、SOP、行动计划。作者落到的判断："真正的价值是输入处理完之后发生的事。每个模型现在都是多模态的。"6629 阅读，104 赞。结构性的关键点：NVIDIA 出这个意味着多模态 agent loop 正在从"拼起来的编排"变成"单模型原语"。

💡#22

@LearnWithBrij
https://x.com/LearnWithBrij/status/2051011635658076527
这周关于四个 agent 原语谁都没说得这么清楚的心智模型：Skills（要知道什么）、MCP（怎么连接）、Hooks（什么时候自动化）、Subagents（谁来干活）。如果你在生产里搭 agentic loop，就用这个视角。结尾埋的判断是对的："会在生产中赢的 agent 不是中央 LLM 最聪明的那个。是知识、连接、自动化、委派四块职责切得最干净的那个。"HALO、ATLAS、Noustiny 都是同一个模式——都因为沿着这些原语线分解才 work。

💡#23

@runfusion
https://x.com/runfusion/status/2050962678911483921
Fusion v0.16 发布了 agent 运行时 + 性能 + 稳定性的重大改进。路线图：auto research、llama.cpp 一等公民支持、一键 Docker 节点配置、实验性 Telegram 插件。手机上已经 95% 时间在用。作者把 auto research 跟 Telegram 支持放在同一个 release——意思是几周后自主实验循环可以从你手机上跑。538 阅读。如果你想要在非笔记本设备上做 autoresearch，值得追。

💡#24

@imraan
https://x.com/imraan/status/2051003569806164413
"OpenAI 把 @karpathy 的 autoresearch 当 /goal 发了。我的时间线疯了。零 credit、零链接、零提及。"值得拎出来，因为这是这周底层张力最干净的表达——Codex /goal 对很多用户做的事就是 Karpathy autoresearch 演示过的，但来源没有归属。作者的判断："在位者不创新。他们等最纯粹的原语，复制它、改个名、说是自己的。"无论你把这看作合理点名还是过激修正，它都是这周一切之下的元叙事。

💡#25

@chrisozydev
https://x.com/chrisozydev/status/2050869137774150109
"专门化的 AI agent 团队跑在堆叠的 Mac Mini 上，是 indie hacker 巅峰能量。一个 agent 做架构。一个写代码。一个测试。同时企业团队还在开会讨论他们的 AI 战略文档。速度赢。"短帖但抓到了这批数据记录的结构性变化：工作的架构单元从一组人压缩到一摞跑专门化 agent 的 Mac Mini。跟 Super User Daily 里 @regent0x_ 那个"两 Mac 双代理 SaaS"是同一条线，不同角度，同一个结论。

💡#26

@livingagentic
https://x.com/livingagentic/status/2050940996905734533
回复 @Teknium（Hermes Agent 作者）问 Kanban 看板编排在小于 12 个 agent 的 agent 组织里好不好用。作者在 Mac mini M4 Pro 48GB 上搭。值得记下来的微观细节："12 个 agent 以下的 agent 组织"现在已经是一个度量单位了。半年前不是。你的编排在 12 个 agent 上下能不能扩展，是新的"单体 vs 微服务"。

💡#27

@ShubhamInTech
https://x.com/ShubhamInTech/status/2050984285369471259
正在做"今天：AI agent 的分析。明天：自我改进 AI agent 的基础设施。"159 阅读，但两步走的规划是对的 framing。没有干净的可观测性就搭不出自我改进的基础设施——分析层是先决条件。大部分人跳过第一步直接出第二步，这就是为什么他们的"自我改进"循环从来不真的改进。

📡 生态产品雷达

生态产品雷达
跨数据集被提及 3 次以上的工具、框架、插件：

Karpathy Auto Research——源原语。21k star。630 行 Python 脚本。
Hermes Agent (Nous Research)——这周被引用最多的自我改进 agent runtime。
ATLAS / ATLAS-GIC——Karpathy autoresearch 应用到金融市场，25+ 个辩论 agent，开源。
HALO (context-labs)——分层 Agent Loop 优化器，基于 RLM，AppWorld benchmark，424 star。
DeepClaude——把 Claude Code agent loop 包在 DeepSeek V4 Pro 上，便宜 17 倍。
Codex /goal——OpenAI 的 autoresearch 风格 loop 原语，被频繁拿来跟 Karpathy 比较。
Pi / pi-autoresearch——多次提及的另一个 autoresearch loop runtime。
evo (alokbishoyi97)——开源 autoresearch 编排器，遗传树搜索，GEPA。
Noustiny (UfukDegen, on Hermes)——agent-native 视频创作流水线，完整故事板链。
Purpose-Agent——步骤级打分框架，把失败转化为启发式。
Fusion (runfusion)——agent runtime，下个版本带 auto research，移动优先。
Lattice——agent 治理 / 授权层（委派权限、签名 action）。
OpenRouter——越来越成为 agent loop 底下的路由层；4 月 30 上线的 cache-control header 重置了 agent loop 经济学。
MCP——仍然是工具连接的标准协议；schema 注入开销现在是已知的循环优化目标。
ElevenLabs——语音合成，在多个 agentic-loop 流水线里出现。

← 上一篇

超级用户日报: 2026-05-05

灵感雷达: 2026-05-05

← 返回所有文章

加载中...

Loop 日报: 2026-05-05

更多文章

评论