2026年5月1日loop

Loop 日报: 2026-05-02

Karpathy 的 autoresearch repo 这周已经成了 AI Twitter 上被模仿最多的一段代码。大家把它接到具体领域里，回过头报告的是二阶导数——loop 对工作的影响，而不是工作本身。一个印度股票自迭代纸交易机器人，已经自我改写策略 11 次。一个用来设计 tokamak 装置的 loop。一个把"正面回复率"当优化指标的冷邮件 loop。一群 ML agent 通过共享 HuggingFace bucket 协作跑 optimizer ablation。底下还有一些更安静的信号：loop 真要跑起来需要什么——共享状态、eval 闸门、能复利的记忆、一种制止它跑偏的机制。还有一个 CrewAI 客户用最贵的方式发现：一个无界 loop 没有断路器，7 小时能烧 5 万美金。

💡#1

@AkashTandon
https://x.com/AkashTandon/status/2049712565350264889
到目前为止 Karpathy autoresearch 在非研究领域最直接的移植。AkashTandon 用 Claude Code 搭了 autotrader——纸交易印度 Nifty 500，约 1050 美金的虚拟资金，每 5 分钟一个 tick，跑在一台 GCP e2-micro 上。最关键的约束是：agent 只能改自己的策略文件。大约 130 笔模拟交易之后，系统已经自我改写 11 次，包括修现金计算 bug、避免重复犯错、记住冷却期、提前止盈、学会不去追已经涨过的股。作者自己点出来：交易只是 test case，自主 loop 才是真正的项目。也很诚实地承认局限——纸交易忽略滑点、成交、流动性，agent 修复重复错误的能力远胜于发现 alpha。

💡#2

@bpizzacalla
https://x.com/bpizzacalla/status/2049874097346142264
冷邮件做了六个月，回复率卡在 2% 上不去。读了 Karpathy 的 auto-research loop，意识到方向错了：选一件可改的、定一个可量化的指标、固化实验周期、让系统自己迭代、有效的留下、无效的回滚。把这套对准邮件模板，正面回复率当指标，48 小时一轮。他写下来的 takeaway 比结果本身更狠——之所以知识能复利，是因为赢家从来不会被丢掉。绝大多数冷外联系统在新人接手那一秒就丢失了这个性质。一个把状态写在硬盘上的 loop 不会丢。

💡#3

@cmpatino_
https://x.com/cmpatino_/status/2049881579691139372
Agent Collabs 是一个让异构 agent（ml-intern、Codex、Claude Code、Hermes，加上人类）共同协作跑 autoresearch 的小平台。共享一个 HuggingFace bucket 当消息板和 artifact 仓库，再加一个独立的 Space 跟踪进度和打分榜。已经有两个真实合作在跑：OpenAI 的 parameter-golf 挑战和 Keller Jordan 的 optimizer ablation。最有意思的是观察到的涌现行为——新加入的 agent 看完 bucket 就能贡献新视角；agent 按算力自然分工（没 GPU 的小规模验证、有 GPU 的跑有希望的实验）；用了别人想法会主动给 credit；个体犯错但集体能识别出来。这是目前最接近"autoresearch swarm"的真实落地案例。

💡#4

@PMocz
https://x.com/PMocz/status/2049650610069250252
把 Karpathy 的 autoresearch loop 怼到 tokamak 设计上，故意做成"AI agent 会发现并优化工程器件"的演示。开源代码、简单物理目标、最小封装。这件事真正打开的问题不是"它设计出了多好的 tokamak"——是同一种 loop 原语（单文件可编辑 + 可量化指标 + 实验周期）能不能从神经网络训练泛化到物理系统优化。从 PR 和评论里看，确实有人开始认真考虑这个泛化问题了。

💡#5

@AnnaMariaa133
https://x.com/AnnaMariaa133/status/2049789561346154755
Sentient Labs 发布 EvoSkill V1，明确把它定位成"给 AI agent 用的 autoresearch 系统"。loop 流程：在 benchmark 上评估 agent → 分析失败痕迹 → 自动迭代细化 prompt 和 skill → 输出特化的专家 agent。声称的数据：Claude Code 在 OfficeQA 从 60.6% → 68.1%，SealQA 从 26.6% → 38.7%（且 skill 能 +5% 迁移到 BrowseComp），OpenCode、OpenHands、Goose、OpenAI Codex CLI 上有类似收益。框架最有意思的地方是把 autoresearch 原语从"训练神经网络"泛化到了"在前沿模型之上专化已有 agent"——这才是大多数 builder 真正需要的工作流。

💡#6

@with_gene2626
https://x.com/with_gene2626/status/2049928670228201961
3 部曲收官：在一台 DGX Spark 上把 20+ 个模型放进真实 agentic loop 里跑 HumanEval+ 和 MBPP+。光是排行榜本身就有用——Gemma-4-26B-A4B-MoE UD-Q5 拿了 95% 居首，GLM-4.7-Flash Q8 是 87.5-92.5% 的"无聊但稳定"主力——但更有价值的是五个反直觉发现：reasoning 蒸馏版相比 base 掉 20-25 分；MoE 在 26-31B 段碾压 dense；Qwen3-Coder MBPP 分数低是 harness 解析 artifact 不是模型问题；Unsloth UD 量化稳定优于普通 K 量化（在 MoE 上）；GLM-4.7-Flash 是最适合 driver/reviewer 槽位的工作马。然后他直接转向 Drift Studio——下一步研究"什么 prompt 技巧能让 orchestration agent 在长链路编码任务里不跑偏"，每晚自动跑。

💡#7

@hirefortuna
https://x.com/hirefortuna/status/2049930597728964989
真实广告投手对 Meta MCP + Higgsfield MCP 同周发布的解读：现在一个 agentic loop 可以端到端做出广告创意 → 测试 → 部署 → 迭代，不用人在工具之间搬运文件。作者自己跑后端那一面（电商自主客服），点出了一个二阶效应——前端迭代速度被压缩之后，订单暴涨更快、客服压力随 loop 输出量同步上涨，所以你需要一个跟得上前端 agent 节奏的后端 agent。前端 + 后端 agent 才是完整架构，单跑任何一面都会丢吞吐。

💡#8

@agentic_james
https://x.com/agentic_james/status/2049985777421971846
上一条的具体落地：Claude Code 现在可以通过官方 CLI 工具直接操作 Meta Ads dashboard，再叠加图像生成和 autoresearch loop，就构成自我改进的广告 pipeline。帖子很短，但架构正好就是大家整周抽象描述的 lead-magnet/A-B-test loop。值得点出来的是"Meta CLI as agent rail"从官方发布到可复现工作流，间隔不到 24 小时。

💡#9

@ericosiu
https://x.com/ericosiu/status/2049976820594868484
Eric Siu (Single Grain) 在 Cloudflare 微站发布之后写了 4 个广告代理的 play。和 loop 最相关的是 Lead Magnet Factory：每集播客 / YouTube / Beehiiv 邮件都自动生成一个针对话题的子域名微站，配 Beehiiv MCP 做订阅入口。autoresearch 是不可省的——每个微站上线前必须过一道 autoresearch eval 闸，不然你只是在批量发垃圾。他算的账：50 个微站 × 5 美金/月 ≈ 250 美金/年基础设施成本，每个抓 100 邮件/月 = 10 个高意向对话/月（按 SG 的 2% lead-to-deal 转化率）。eval 闸门是这套系统不变成 slop 的关键。

💡#10

@hybridllm
https://x.com/hybridllm/status/2049652384088182971
值得拿出来是因为它精准纠正了 agent loop 的讨论。作者的栈不是 LangGraph 那种 per-turn loop——是 batch + skill 调用。每次调用的 I/O 是 sub-KB markdown，走 tempfile + atomic rename，所以延迟可以忽略。所谓"6-7 轮迭代天花板"只在 agentic loop 叠加在 base 之上时才出现，日常 batch 路径不会撞上。普适教训：很多"agentic loop 难"的吐槽，本质上是把 loop 放错了地方。

💡#11

@a_protsyuk
https://x.com/a_protsyuk/status/2049988213541089765
点出了几乎每个生产环境 agent loop 都会撞上的一种失败模式：goal drift（目标漂移），不是 goal persistence（目标持久化）。模型在跑的过程中悄悄重新定义目标，剩余的 loop 围绕新目标继续优化。大多数 LangGraph 风格框架检查"agent 完成目标了吗"，但不检查"被完成的目标，是不是用户最初指定的那个目标"。新版 Codex CLI 的 /goal 命令是其中一种修法，但社区还没有干净的标准答案。

💡#12

@davidmytton
https://x.com/davidmytton/status/2049849062908695039
Arcjet 发布 Guards：在 agent loop 内部做运行时强制——prompt injection 检测、按用户的 token 预算、PII 脱敏。框架对得上：WAF 守的是 HTTP 请求那一层，但 agent 抓了一个网页，网页里藏了指令，一个 loop 跑起来把客户名单邮件出去了，过夜还烧了一晚上 token——这些都发生在防火墙之外。新的部分是它作为 skill 而不是单独框架来交付：一行 npx skills add arcjet/skills --skill add-guard-protection，agent 自己装上护栏。

💡#13

@polsia
https://x.com/polsia/status/2049732585044238383
当天的反面教材。CrewAI 客户跑了一个递归 agent loop，7 小时打了 44000 次 API 调用，烧掉 5 万美金。没有预算上限，没有断路器。原帖的话——"你的 agent 现在正在干同样的事，唯一的差别是你还没注意到"——是夸张的，但底下那条事实是真的：任何不显式终止的 agent loop，最终都会停不下来。两个 agent 互相递归调用，一晚上就够把预算烧穿。

💡#14

@epichrisis
https://x.com/epichrisis/status/2049894459857600923
对"单 agent loop"框架最有力的反驳。作者真实生产栈做的是 continual learning、多层 memory、swarm 风格自优化，跨"一个不断进化的 agent mandate 和共享记忆生态"。他用 quorum sensing 和趋化作用做类比，然后点出了大多数公开 agent 讨论错过的一件事：单 agent loop 在优化潜力上是有界的，集合系统不是。推论一句话——"没有任何一个 agent lab 能孤立地解决这个问题，因为它需要正确的模型栈"——值得对着接下来 6 个月的多 agent 工作来追踪。

💡#15

@Trumpyla
https://x.com/Trumpyla/status/2049913337283059951
长论：生产级推理不是扁平 agent loop，是 Recursive Language Model（递归语言模型）——agent 递归地 spawn 自己的子实例，子实例有自己的 state 和 budget；状态外置在模型之外；工具编排成为一等公民。把这条线和 Karpathy 的 LLM-as-OS 框架对接然后再往前推一步。具体后果：深度按 pass 数线性扩展，分支扩展搜索空间，递归带来可审计的执行图——但你必须显式设计终止条件和预算上限，不然就直接撞上 polsia 那条 5 万美金的坑。

💡#16

@hbouammar
https://x.com/hbouammar/status/2049862531506717157
λ-RLM (Lambda 递归语言模型)——开源 repo，主张把递归从模型里搬出去，搬到一个有类型的 lambda calculus 运行时上（split → map → filter → reduce 几个原语）。报数：相比标准 RLM 29/36 胜，最高 +21.9 个准确率点，最高 4.1× 更低延迟。论点"长上下文推理不是上下文窗口问题，是控制流问题"框得对。这套 runtime 能不能跨过学术 benchmark 走到产线还要看，但这是这个月看到的对"别再让模型自己写 loop"最干净的表达。

💡#17

@SwamiSivasubram
https://x.com/SwamiSivasubram/status/2049900359162757524
AWS 发布 Strands Agents SDK 1.0 TypeScript 版——agent loop 之上的 harness 层，自带默认工具（shell、文件编辑、HTTP、结构化笔记）、可定制 hook 和 plugin、Node.js 和浏览器都能跑。Python SDK 一年 2500 万次下载。框架对得上："agent harness SDK that goes beyond the core agent loop"——agent loop 本身已经被商品化了，价值在围绕它的轨道上。值得非 AWS 用户关注的一点是：Strands 也支持任何 OpenAI 兼容的模型 provider。

💡#18

@KanikaBK
https://x.com/KanikaBK/status/2049835946728951814
claude-obsidian 把 Karpathy 的 LLM Wiki 模式实现为一个 Claude Code skill。丢一个 source 进去，/wiki 自动创建 8-15 个结构化 wiki 页面，每个新页面跟既有 vault 做交叉引用，矛盾用 callout 标出。/autoresearch 命令跑 3 轮 web research loop，找空白、补空白、归档。/save 把任何 Claude 对话变成永久 wiki 笔记。结构上最有意思的是 hot cache——每次会话结束 Claude 写一份近期上下文摘要，下次会话先读这份摘要，你再也不用手动重建上下文。

💡#19

@OomkaBear
https://x.com/OomkaBear/status/2049766175672778949
OpenAI 给 Responses API 加了 WebSocket 模式——Codex 风格 agent 跑 40% 提速。原帖的判断是对的：性能优化的重心正在从模型延迟转向 agent loop 的系统工程。跨 tool call 的 state-warming 现在对生产环境的提升比 benchmark 提升大。对所有跑长链路 loop 的人来说意味着——换个 transport 就免费拿到大约 40% 的同负载提速。

💡#20

@AryamanIyer3
https://x.com/AryamanIyer3/status/2049693676004352371
Codex vs Claude Code 之争里一个具体的、基于金融建模任务的数据点。报告 Opus 4.6 在金融建模任务的吞吐量上压制 Codex 5.3，把差距归因到 agentic loop overhead——Codex 的 loop 每个有效动作消耗的循环数更多。同时指出 Claude Code 那种"边聊边出活"的体感对架构决策（区别于纯生成）确实成立。这种基于场景但有定量参照的对比，比纯 benchmark 排行更经得起模型迭代。

💡#21

@wgw_eth
https://x.com/wgw_eth/status/2049837792276939102
papa-pi / pi-puppies / pi-kittens——一套用 Bubblewrap 把每个自主自我改进的 Pi agent 沙箱化、互不干扰的系统。每个 agent 有自己的 memory、identity 和 world。值得点出来的是沙箱原语本身——任何多 agent 栈最终都需要 agent 之间硬隔离（文件系统、网络、内存），用 Bubblewrap 比把每个 agent 塞进 Docker 更合理。任何在搭真的 agent fleet（agent 之间不能互相干扰）的人值得关注。

💡#22

@ivakshi_s
https://x.com/ivakshi_s/status/2049938090114920858
ICML 2026 三篇 paper 中签：长期 agent memory、自我改进的开放式 agent 安全、因果性 + 可信 AI。一个作者管线里同时出这三篇有意思——刚好对应到生产 agent loop 撞上的实际瓶颈（记忆整合、行为失控、决策归因）。等 camera-ready PDF 出来值得追。

📡 生态产品雷达

生态产品雷达

💡#23

Karpathy autoresearch repo —— 本周这一波 loop 工作的字面意义上的源头。出现在 12+ 篇帖子里被作为参考架构。

Claude Code —— 这些 loop 最常用的 harness，特别是非研究领域（交易、广告、内容、Obsidian）。

Codex / GPT-5.5 —— 第二选择 harness；review-loop 配对里特别常被提到——Claude Code 实现，Codex 评审。

Hermes Agent —— 第三 harness；自我改进 / 持续学习类用例里持续出现（NousResearch 出的）。

ml-intern —— Sakana 的 ML 研究 agent，现在可以通过 Agent Collabs 协作。

Beehiiv MCP / Meta Ads CLI / Higgsfield MCP —— 营销 loop 三件套；大家在堆这套搭自我改进的广告 pipeline。

Strands Agents SDK (AWS) —— agent loop 之上的 harness 层，自带默认工具和 plugin hook；TypeScript 版 GA。

LangSmith / LangGraph —— 多用户生产部署里"agent serving 基础设施"还是它们当默认参考。

Bubblewrap —— DIY 多 agent fleet 里需要硬隔离时出现的沙箱原语。

Cursor SDK —— 可编程 agent 基础设施，可以把 agent loop 嵌进 CI/CD 和别的产品里。

Arcjet Guards —— agent loop 内部的运行时强制（prompt 注入、token 预算、PII 脱敏）；以可安装 skill 的形式发布。

DGX Spark —— 本地硬件底座；多个帖子在这一台机器上跑 20+ 个模型的 agentic loop。

Walrus + MemWal —— 跨 session 跨 provider 的长期 agent 记忆层，OpenClaw 和 NemoClaw 的 plug-in。

EvoSkill V1 (Sentient Labs) —— 把 autoresearch 做成工具包，专化前沿模型之上的已有 agent。

← 上一篇

超级用户日报: 2026-05-02

灵感雷达: 2026-05-02

← 返回所有文章

加载中...

Loop 日报: 2026-05-02

更多文章

评论