2026年5月4日loop

Loop 日报: 2026-05-05

Karpathy 那个 630 行的 Auto Research 脚本现在成了 agentic loop 讨论的引力中心——把它指向已经优化过的代码扔在那跑一晚上,跑了 83 个实验,找到 15 个真正的改进,包括人类没注意到的一个 attention bug,最终带来 11% 的提速。几天 GitHub 上 21k star。沿着这条线衍生出的判断很狠:现在任何拥有消费级 GPU 或者 Mac mini 的人,都能跑三周前还只有大厂能跑的那种 autoresearch。周日的讨论已经不再是"autoresearch 行不行",而是怎么把它应用到金融市场、代码优化、bug 猎杀、甚至 Hermes 重写自己的源码。再加上两个反面教材:那个 15 万美元 Anthropic 账单的真相,和一个还没人正经讨论的 eval 过拟合问题。
💡#1
@deltnaodeai
https://x.com/deltnaodeai/status/2050931026134962315
对 Karpathy Auto Research 为什么重要,这是这周最干净的一种解释。他把一个 630 行 Python 脚本指向已经优化过的代码,让它跑一晚上。它自主跑了 83 个实验。15 个是真正的改进。它找到了人类漏掉的一个 attention bug。在调过的代码上 11% 提速。21k GitHub star,还在涨。作者的判断是对的:这不是编程助手——这是自主科学实验。最有意思的是它推出来的隐含逻辑:优化的瓶颈从来不是想法,是耐心去通宵跑 83 个实验。现在耐心是一个脚本。
💡#2
@safakkayran
https://x.com/safakkayran/status/2051060142909665589
Karpathy autoresearch 应用到金融市场——ATLAS-GIC。25+ 个 AI agent 每天在 4 层结构里辩论市场。README 里埋的核心结构性洞察:"prompts are the weights. Sharpe is the loss function."(提示词是权重,夏普率是 loss function)。表现最差的 agent 自己重写或者被淘汰。18 个月回测:22% 实盘收益。开源,1.5k star。这是这批数据里 autoresearch 应用到非编码领域最干净的一个——agent 本身就是被训练的模型参数,风险调整收益是梯度。回测数字打个折看,架构本身才是有意思的部分。
💡#3
@quantscience_
https://x.com/quantscience_/status/2050967676852285544
跟 ATLAS-GIC 是同一个项目,作者自己的描述。他明确把三个概念叠加起来:Karpathy autoresearch + 索罗斯反身性 + MiroFish 群体 agent。组合上最有意思的地方是:索罗斯反身性(市场被交易者关于市场的信念递归塑造)跟多 agent 辩论结构天然贴合——每个 agent 这一轮的判断会改变其他 agent 下一轮看到的东西。这条 7 小时拿了 1700 阅读,仓库链接在线程里。哪怕你完全不关心交易也值得读,"prompts are weights" 这个 framing 是精华。
💡#4
@oddur
https://x.com/oddur/status/2050848068958884000
用 Karpathy autoresearch 给 seedmmo 找出最佳的 GPU + VLLM + Gemma4 推理配置。把评估和改配置的能力交给 agent,扔在那跑一晚上,醒来时收到一份 findings.md。这才是大多数工程师最该先跑的用例——不是金融市场、不是新颖科研,就是简单的"这是我的配置空间,这是 benchmark,找出最佳设置"。"最后给一份 findings.md"这个细节就是它达到生产级的标志。这是 autoresearch 从科幻变成运维基础设施的临界点。
💡#5
@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2051033330179506563
"现在最大的事是没人意识到,任何拥有消费级 GPU 或 Mac 的人都能在家做 autoresearch 和优化,而几周前这只有有海量数据/算力的实验室能做。"这是把这周所有线索串起来的元观察。还没被完全定价的隐含含义:优化已经被民主化了。如果你有一块 3090 加一个晚上,你拥有的就是三周前 OpenAI 一个 ablation team 拥有的东西。大厂在常规模型/配置优化上的护城河刚刚塌了一块。
💡#6
@StijnSmits
https://x.com/StijnSmits/status/2050929771941437713
关于 autoresearch 这周最有用的一个警告。"用 (pi-)autoresearch 之类的工具优化系统提示词最棘手的地方是它会过拟合到 evals,悄悄地砸烂分布外的多轮表现。"为什么这事重要:大部分 autoresearch 循环用 benchmark 当 loss function,但真实生产流量天然是多轮的、分布外的。模型可能 eval 上很完美但生产上是坏的。如果你正在跑 autoresearch loop,要加上的问题是:"我的 OOD 多轮回归测试是什么?"
💡#7
@alokbishoyi97
https://x.com/alokbishoyi97/status/2051070089856962924
开源了一个 autoresearch 编排器(evo),支持 Hermes Agent 加遗传树搜索,还能用自定义的前沿挑选策略(GEPA、eps-greedy)。v0.4 预告加远程沙箱——可以在 Modal、e2b、Daytona、AWS、Azure 或者任何能 SSH 的盒子上启动实验。Evo 处理 workspace、运行时环境、日志、trace,把实验扩展到任何能付得起的算力上。最有意思的设计选择:让 autoresearch 循环跟基础设施解耦,所以你能在任何能买到的算力上跑。线程里他在密集回复,发版速度很快。值得追。
💡#8
@yx3io
https://x.com/yx3io/status/2051053458107584837
也许是这批数据里哲学上最有意思的 agent loop:自我指涉的 agent 循环,Hermes 看着自己的源码每天变化,试图理解自己在变成什么。作者把 agent 自己的 diff 历史当做输入信号,让它讲述自己的演化。这是 Karpathy autoresearch 想法的奇异环版本——agent 不是在优化代码,是在写它对自己的内部模型。963 阅读,21 个赞。没人为生产理由这么干,所以才有意思。
💡#9
@samhogan / @peyman_razaghi
https://x.com/peyman_razaghi/status/2051032733158412333
HALO——分层 Agent Loop 优化器。基于 RLM 的 agent 优化技术,能递归自改进。转推抓住的 framing 是:与其在静态 prompt 上跑 autoresearch loop,HALO 直接作用在循环结构本身上。编排层重写 agent 怎么拆解任务的策略。跟 Karpathy autoresearch 的尺度不同:Karpathy 优化代码表面,HALO 优化 agent 的规划策略。
💡#10
@chenzeling4
https://x.com/chenzeling4/status/2050814372486811723
HALO 的数据和出处:424 star,来自 context-labs,RLM 评估输出并生成反馈来改进每轮行为。在 AppWorld 上做基准。Python。值得关注的数字:424 star 还很小,意思是你还有时间在它变成默认模式之前先把这个代码读完。AppWorld 是合适的 benchmark 选择——它专门衡量 agent 在真实应用里跨多步使用工具的能力,不是那种刻意单次调用的 benchmark。
💡#11
@willleebuilds
https://x.com/willleebuilds/status/2051074552134799638
DeepClaude 把 Claude Code 的 agent loop 包在 DeepSeek V4 Pro 外面,号称便宜 17 倍。作者的分析才是值得引用的部分:"有意思的不是省钱。是这个 harness 现在可移植了。Loop 才是护城河,不是它后面的模型。"这是贯穿整天讨论的关键判断——Anthropic 的 Claude Code 越来越被当成一个独立于 Anthropic 实际模型的控制循环。如果这个 loop 能在 DeepSeek、Codex、OpenRouter 之间通用,那"哪个模型最好"的问题就没"哪个 loop 最可扩展"重要了。
💡#12
@UfukDegen
https://x.com/UfukDegen/status/2051088239579345329
Noustiny——构建在 Nous Research 的 Hermes Agent 之上,是这周任何人发布过的最具体的 agentic-loop 视频创作流水线。12 个通用 Hermes 工具加 13 个 skill,组织成四个流水线:故事状态、角色一致性、声音、渲染。故事树图管理 canon、分支、插入。角色流水线跑 IP 清洗 → 头像生成 → 注册表查找 → 别名解析。声音流水线跑角色定调 → 样本采集(yt-dlp + ffmpeg)→ ElevenLabs IVC 克隆 → 渲染后清理缓存的 voice ID。架构上最重要的一点:Hermes 本身没改,所有这些都是注册表兼容的插件。19046 阅读,281 赞。GitHub 上开源。这就是"agent-native 软件"该有的样子。
💡#13
@morefishoil
https://x.com/morefishoil/status/2050948112894824527
这周关于 agent loop 最实操的诊断:"每一个 MCP 工具的 schema 在每一轮开头都会被重新注入,即便没改过——这就是 2-5K token/轮的闲置消耗。把 schema pin 住加上 ephemeral cache control,能在一个 12 步 agent loop 里省下大约 30K token。"这正是那种 autoresearch 能挖出来但人通常懒得查的管道级优化。如果你在跑多步 agent,账单看起来神秘,先查这个。
💡#14
@justgrm
https://x.com/justgrm/status/2050939174891446492
记录了一段配置 prompt,可以让 Claude Code 的 agent loop 走 OpenRouter 跑在 Anthropic 服务器之外。Agent loop、skills、harness 都保持不变——只有请求的端点换了。作者说视频发布以来这段 prompt 已经被填进去几万次。这跟 DeepClaude 是同一个观察的另一个侧面:Claude Code 的 loop 跟底层模型解耦了。Anthropic 唯一把它锁在 Claude 内部的东西没了。无论你同不同意作者的 framing,这个旁路真的能用,且很多人在用。
💡#15
@MystiqueMide
https://x.com/MystiqueMide/status/2051031692434178206
14 天 Hermes Agent 实验,全程承诺:只用 Hermes,不搭 OpenCode,连 OpenAI API + DeepSeek API,VPS 上 24/7 运行。理由:持续运行、随时间真的会改进、轻量、能接开源模型、跨多个 provider 连接。他在专门测自我改进这个声称——Hermes 的 procedure 文件在两周无人值守的运行下到底会不会复利?结果待报告。值得追。
💡#16
@VivekIntel / @dr_sensor (RT)
https://x.com/VivekIntel/status/2050957303734735007
Hermes Alpha——自我改进的 Bug Bounty AI,干净的双代理架构。Overseer 负责策略,Hunter 负责执行。完全自主。最有意思的设计选择是显式的角色分离:大部分"自我改进"的 agent 把规划和执行混在一起,导致没法判断瓶颈在哪边。把它们拆开,你就在策略层得到了一个可衡量的反馈循环。
💡#17
@RohanParija1
https://x.com/RohanParija1/status/2051041832373739773
Purpose-Agent。其他 agent 都是 run→fail→retry,没记忆、没学习。Purpose-Agent 引入一个"Purpose Function",给每一步打 0-10 分,给智能反馈,把失败转成启发式 + 记忆。声称:1.7B 模型 run 1 失败、run 3 解决。本地优先、自我改进、不用 fine-tuning。这是 Karpathy autoresearch 思想下沉到 agent 步骤层,而不是全局研究层——每一步都被打分,启发式不断累积。1.7B-第三轮解决的声称在更多领域是否成立还要看,但架构原则——给步骤打分而不是只看最终输出——是真有用的。
💡#18
@BretKerr
https://x.com/BretKerr/status/2051038169894642092
对那个著名的"Anthropic 月账单 15 万美元"事件做了法医级复盘。真实机制:罗马尼亚开发者"Claudiu"留了一个无人监督的 agentic loop 跑了一整个计费周期。loop 是无限的。把这件事当做"AI 编程的成本"来引用,跟把忘了关的 EC2 集群当云成本来引用是一回事。作者的完整数学:拉满的多 agent 预算大约 400 美元/月,全成本美国工程师 16-21k 美元/月,所以 AI 是一个工程师的 2.4%。如果它给你 15% 的生产力提升,就是 525% ROI。真正隐藏的成本来源:Claude Code 的 1 小时 prompt cache,你离开 61 分钟它就 evict 了,下一次 prompt 就是把你百万 token 的仓库全量 context 写一遍。"账单是从空闲里出来的。"
💡#19
@leo_liuye
https://x.com/leo_liuye/status/2051044599876272344
"@karpathy 把 autoresearch 比喻成研究社区而不是单个 PhD——这正是对的 framing。我们在商业决策里跑同一个模式。不是一个 AI 分析师。一个 agent 网络,互相辩论、挑战、在彼此结论上构建。复合智能。"这是 autoresearch 思想最干净的非编码映射之一。framing 很关键:单个 AI 分析师不过是个吹起来的电子表格,但一个互相证伪的 agent 网络给你的东西更接近真正的判断力。架构模式跟上面 ATLAS 交易系统一样,应用到企业决策。
💡#20
@DROOdotFOO
https://x.com/DROOdotFOO/status/2050879188559692148
发了几个 MIT 协议的 autoresearch agent skill,归在 Meta 类别下。作者明确点了 autoresearch skill:"你随便改,但方向上它在 mule ai 账户上一直在干活。"这句话——"在 mule ai 账户上干活"——是 tell。某个人有一个 agent skill 在他真在乎的真实生产账户上悄悄跑 autoresearch,且在出活。不是 demo、不是 benchmark,就是一个资产在做它的工作。值得拿来用。
💡#21
@cyrilXBT
https://x.com/cyrilXBT/status/2050897489285488814
NVIDIA Nematron 3 Nano Omni——把多工具工作流坍缩成一个 agent loop。读文档、看仪表盘、听语音备忘、处理视频 demo、扫社区帖子、分析图表。不是一个一个来。是一次同时全部处理。然后把结果变成结构化输出:报告、SOP、行动计划。作者落到的判断:"真正的价值是输入处理完之后发生的事。每个模型现在都是多模态的。"6629 阅读,104 赞。结构性的关键点:NVIDIA 出这个意味着多模态 agent loop 正在从"拼起来的编排"变成"单模型原语"。
💡#22
@LearnWithBrij
https://x.com/LearnWithBrij/status/2051011635658076527
这周关于四个 agent 原语谁都没说得这么清楚的心智模型:Skills(要知道什么)、MCP(怎么连接)、Hooks(什么时候自动化)、Subagents(谁来干活)。如果你在生产里搭 agentic loop,就用这个视角。结尾埋的判断是对的:"会在生产中赢的 agent 不是中央 LLM 最聪明的那个。是知识、连接、自动化、委派四块职责切得最干净的那个。"HALO、ATLAS、Noustiny 都是同一个模式——都因为沿着这些原语线分解才 work。
💡#23
@runfusion
https://x.com/runfusion/status/2050962678911483921
Fusion v0.16 发布了 agent 运行时 + 性能 + 稳定性的重大改进。路线图:auto research、llama.cpp 一等公民支持、一键 Docker 节点配置、实验性 Telegram 插件。手机上已经 95% 时间在用。作者把 auto research 跟 Telegram 支持放在同一个 release——意思是几周后自主实验循环可以从你手机上跑。538 阅读。如果你想要在非笔记本设备上做 autoresearch,值得追。
💡#24
@imraan
https://x.com/imraan/status/2051003569806164413
"OpenAI 把 @karpathy 的 autoresearch 当 /goal 发了。我的时间线疯了。零 credit、零链接、零提及。"值得拎出来,因为这是这周底层张力最干净的表达——Codex /goal 对很多用户做的事就是 Karpathy autoresearch 演示过的,但来源没有归属。作者的判断:"在位者不创新。他们等最纯粹的原语,复制它、改个名、说是自己的。"无论你把这看作合理点名还是过激修正,它都是这周一切之下的元叙事。
💡#25
@chrisozydev
https://x.com/chrisozydev/status/2050869137774150109
"专门化的 AI agent 团队跑在堆叠的 Mac Mini 上,是 indie hacker 巅峰能量。一个 agent 做架构。一个写代码。一个测试。同时企业团队还在开会讨论他们的 AI 战略文档。速度赢。"短帖但抓到了这批数据记录的结构性变化:工作的架构单元从一组人压缩到一摞跑专门化 agent 的 Mac Mini。跟 Super User Daily 里 @regent0x_ 那个"两 Mac 双代理 SaaS"是同一条线,不同角度,同一个结论。
💡#26
@livingagentic
https://x.com/livingagentic/status/2050940996905734533
回复 @Teknium(Hermes Agent 作者)问 Kanban 看板编排在小于 12 个 agent 的 agent 组织里好不好用。作者在 Mac mini M4 Pro 48GB 上搭。值得记下来的微观细节:"12 个 agent 以下的 agent 组织"现在已经是一个度量单位了。半年前不是。你的编排在 12 个 agent 上下能不能扩展,是新的"单体 vs 微服务"。
💡#27
@ShubhamInTech
https://x.com/ShubhamInTech/status/2050984285369471259
正在做"今天:AI agent 的分析。明天:自我改进 AI agent 的基础设施。"159 阅读,但两步走的规划是对的 framing。没有干净的可观测性就搭不出自我改进的基础设施——分析层是先决条件。大部分人跳过第一步直接出第二步,这就是为什么他们的"自我改进"循环从来不真的改进。
📡 生态产品雷达
生态产品雷达
跨数据集被提及 3 次以上的工具、框架、插件:

Karpathy Auto Research——源原语。21k star。630 行 Python 脚本。
Hermes Agent (Nous Research)——这周被引用最多的自我改进 agent runtime。
ATLAS / ATLAS-GIC——Karpathy autoresearch 应用到金融市场,25+ 个辩论 agent,开源。
HALO (context-labs)——分层 Agent Loop 优化器,基于 RLM,AppWorld benchmark,424 star。
DeepClaude——把 Claude Code agent loop 包在 DeepSeek V4 Pro 上,便宜 17 倍。
Codex /goal——OpenAI 的 autoresearch 风格 loop 原语,被频繁拿来跟 Karpathy 比较。
Pi / pi-autoresearch——多次提及的另一个 autoresearch loop runtime。
evo (alokbishoyi97)——开源 autoresearch 编排器,遗传树搜索,GEPA。
Noustiny (UfukDegen, on Hermes)——agent-native 视频创作流水线,完整故事板链。
Purpose-Agent——步骤级打分框架,把失败转化为启发式。
Fusion (runfusion)——agent runtime,下个版本带 auto research,移动优先。
Lattice——agent 治理 / 授权层(委派权限、签名 action)。
OpenRouter——越来越成为 agent loop 底下的路由层;4 月 30 上线的 cache-control header 重置了 agent loop 经济学。
MCP——仍然是工具连接的标准协议;schema 注入开销现在是已知的循环优化目标。
ElevenLabs——语音合成,在多个 agentic-loop 流水线里出现。
← 上一篇
超级用户日报: 2026-05-05
下一篇 →
灵感雷达: 2026-05-05
← 返回所有文章

评论

加载中...
>_