2026年5月9日loop

Loop 日报: 2026-05-10

💡#1

5月8日是autoresearch从Karpathy的demo毕业到生产经济论证的一天。Cursor的SDK发布了/orchestrate，agent递归spawn并行子agent，Cursor自己在内部auto-research管线上拿到20%的token削减。OpenAI的Codex拿到了hooks支持——在agentic loop中间注入自己脚本的扩展点，跟Claude Code最早ship的是同一种模式。一个Kaggle选手告诉世界，GPT-5.5的推理偶尔会"失态、对烂实验软发飙"，同时auto-research agent正在向Kaggle gold爬升。Razorpay的首席架构师写了上千字解释agentic loop是简单部分——难的部分是在真实负载下做生产级。Andrej Karpathy的autoresearch repo越过了7.9万星，社区把它横向移植到交易、凝聚态物理、演化经济学，现在是landing page文案。

💡#2

@4DRp0iHGeKdYH0T
https://x.com/4DRp0iHGeKdYH0T/status/2052990115769979308
Codex /goal autoresearch会话，全receipt。15小时runtime、$500+ API消耗、90+次提交产出。报告说CI失败把他的邮箱炸穿。这就是2026年"AI overlord"的真实硬件形状——通宵和通日的自主算力花在单个工单上，人的成本是邮件分诊，不是写代码。

💡#3

@kibubble_de
https://x.com/kibubble_de/status/2053027538620813626
Cursor SDK拿到/orchestrate。Agent递归spawn并行子agent，结果回传。Cursor自己内部的auto-research管线见到20%的token削减、80%的backend cold start削减。框架严苛：单agent loop现在是legacy。发loop架构的供应商也在自己头上先跑这套架构。

💡#4

@moshuishapaozi
https://x.com/moshuishapaozi/status/2053038149107056883
为美股研究搭建auto-research框架。多agent对抗：一个负责赛道研究和调度，一个跑评测和挑错，每只股票单开一个agent调用用户存的stock-analysis Skill。硬规则：赛道评测循环到通过、所有候选都要逐股独立研究、每只股票至少30+来源、单股报告要轻评、不合格就重跑。说基础脑力劳动价值在快速下降，但人的脑力消耗反而上升，因为loop能分析的机会宇宙一下子炸开了。

💡#5

@ar0cket1
https://x.com/ar0cket1/status/2052979876546887726
Codex /goal是产品里最好的功能。长horizon任务、10小时自主跑，关键的是"/goal修复了Codex之前的auto research问题"。这是缺的拼图——/goal落地之前，Codex跑几轮就停，需要手动排队。这条receipt是用户侧确认loop终止逻辑现在足够稳定，可以为10小时任务下注。

💡#6

@flock_io
https://x.com/flock_io/status/2053023203233271913
Dable的Logan Kang在韩国AI session上展示Auto Research——agentic AI帮团队把研究更快变成可重复的真实世界测试。韩国企业把autoresearch想法产品化是二阶导信号：不只是Twitter形态，而是一家真实公司的企业项目。

💡#7

@AINativeF
https://x.com/AINativeF/status/2052900413301776562
论文drop："Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes"（Ning, Li, Zeng, Kang, Xiong）。专家agent创建带代码编辑和评估的trial，在可审计的轨迹上迭代。Receipt：在Parameter Golf validation、NanoChat-D12 CORE、CIFAR-10 Airbench96 wallclock上无人工提议无人工干预的显著改进。pi-autoresearch的学术版正在出版。

💡#8

@JeremyNguyenPhD
https://x.com/JeremyNguyenPhD/status/2053082260132573517
"我让3个AI agent单独面对一个研究问题过夜。它们带回了72篇同行评议论文。"引自University of Minnesota的Prof Jie Ding，开源WorldSeed autoresearch组合框架。Receipt在单位上：72篇真实的同行评议论文被自主loop找到并分诊，不是单个对话输出，不是合成的实验数。

💡#9

@arpit_bhayani
https://x.com/arpit_bhayani/status/2053091711698768357
Razorpay首席架构师讲生产agentic系统。Agentic loop是简单部分。能扩展的是系统设计——微服务、消息队列、一致性保障、负载均衡、工作分发、状态管理、限流、节流、降级、服务到服务通信、QoS。原型代码和生产代码的差距是15个组件和1000次提交。这是最接近企业声音的人公开说出：聊天→agent的转型是分布式系统问题，不是AI问题。

💡#10

@8teAPi
https://x.com/8teAPi/status/2053025212653076602
跑Claude Code Opus 4.7做规划和评审 + GPT 5.5 high在Codex里做执行，作为完整规模的agentic loop。报告说"震撼"——一旦项目结构和脚手架对了。双模型架构现在是稳定模式——一个模型挑动作，另一个模型执行。

💡#11

@kylejeong
https://x.com/kylejeong/status/2052873208668524917
OpenClaw + Autobrowse迭代式构建任意浏览器工作流的Skill。Craigslist抽取例子：5次迭代实现68%加速和91%成本节省。中途，agent发现了一个暴露的endpoint，用它完全跳过了页面导航。这是迄今"Skill编译即autoresearch"最具体的展示——loop不只是优化，它发现了人类会错过的策略。

💡#12

@testingcatalog
https://x.com/testingcatalog/status/2052882191940534531
Hooks支持要来Codex app了。Hooks是扩展框架，让你在agentic loop里注入自己的脚本。战略点：Claude Code最先ship hooks，IDE-agent的差异化现在活在hooks层不是模型替换。Codex在这个维度跟上比模型规格之争更重要，因为hooks是团队真正定制行为的地方。

💡#13

@MinLiBuilds
https://x.com/MinLiBuilds/status/2052188818137330043
Anthropic的beta功能在SpaceX算力合作落地之后变真了。三个：Dreaming（记忆整理函数）、Outcomes（Anthropic把Codex /goal产品化的版本——autoresearch包装成任务完成保证）、Multiagent（主控agent按需spawn多agent处理复杂任务）。用户半自嘲——他刚手搓了一个CC版本的/goal轮子，官方就出了。

💡#14

@aiwithmayank
https://x.com/aiwithmayank/status/2046914454353510893
Karpathy autoresearch每个分叉的目录在一个地方。macOS Apple Silicon端口。Windows RTX消费级NVIDIA端口。WebGPU浏览器端口。多GPU+崩溃恢复。Colab/Kaggle T4免费端口。横向应用：交易agent优化prompt对照rolling Sharpe ratio而非model loss、家谱研究者迭代展开家族史、Spring Boot服务在5个自主周期里从119行长到950行。原始想法——给AI一个指标、让它自我改进直到赢——在任何有可测量目标的事情上都管用。

💡#15

@samhogan
https://x.com/samhogan/status/2049619541727302040
HALO（Hierarchical Agent Loop Optimizer）开源。基于RLM的递归自我改进，分析执行trace并提议harness改动。AppWorld benchmark Sonnet 4.6上的结果：73.7→89.5，+15.8分。反馈表面包括幻觉的工具调用、冗余参数、拒绝循环、语义正确性——每个问题都干净映射到一个prompt更新。然后他们把这些发现喂给Cursor（Opus 4.6），让coding agent更新底层harness。重复trace→HALO-RLM分析→代码更新的loop直到分数饱和。这是元loop：一个AI改进另一个AI的harness，用第三个AI写补丁。

💡#16

@ShenHuang
https://x.com/ShenHuang/status/2043469166418735204
花了几亿token调一个race condition。失败。后来借鉴Karpathy auto-research加了一句话："把所有假设和证据写到DEBUG.md。"AI列了5个假设。第3个没有任何反对证据。3行实验、根因确认、5分钟修完。蛮干浪费的token比最后修bug多了1000倍。四条debug规则：改代码之前先列假设、每次实验最多改5行、所有证据写文件（防上下文压缩丢推理链）、同一方向失败2次强制换假设。

💡#17

@ShopifyEng
https://x.com/ShopifyEng/status/2044477537200550383
开源pi-autoresearch后，Shopify团队在所有东西上跑它。Receipt：单元测试300倍快。React组件挂载20%快。CI构建时间砍65%。pnpm变快。框架：autoresearch不会停止尝试你没时间尝试的东西。这是真公司在autoresearch loop价值上的少数硬生产经济数字之一。

💡#18

@sudoingX
https://x.com/sudoingX/status/2052361613651701933
工具使用benchmark v1的诚实测试结论：单个happy-path任务区分不出两种胜任的agentic风格。原生qwen 3.6用12次工具调用vs carnice-v2的19次完成任务，11:37 vs 12:23完成，但每条消息生成更多推理、100%消息发推理vs carnice的71%。v2 bench要变难：对抗场景、中途工具失败注入、多步orchestration带破损中间状态、每模型3次跑做方差捕获、更难的任务。这是真在跑agent loop trial的人对自家benchmark的真实卫生。

💡#19

@grapeot
https://x.com/grapeot/status/2051734189054255164
过去2年AI工具最大的变化不是prompt复杂度——而是脚手架在被商品化。Prompt工程技巧被模型吸收。Agent loop、文件/shell访问、测试反馈、上下文压缩成了Claude Code/Codex/Cursor/OpenCode的runtime功能。剩下值得自己维护的：domain context、eval、权限边界、质量标准、判断框架。工作在从执行迁到边界判断。

💡#20

@TeksCreate
https://x.com/TeksCreate/status/2053151671966986735
DeepClaude开源：跑Claude Code的agent loop但用DeepSeek V4 Pro替代Anthropic。便宜17倍。保留多步推理、文件操作、调试。已经在跑deepseek-v4-pro？今天就能这么干。Loop现在跨provider可移植——harness ship、模型在配置层换。

💡#21

@sentient_agency
https://x.com/sentient_agency/status/2045065544668528870
MiniCode发布——Claude Code的开源孪生，同样的agent loop、工具模型、TUI架构，为了被理解而构建。复制集合：model→tool→model loop、写之前review带统一diff、stdio动态MCP、SKILL.md本地skill、reject带guidance在loop中段推回纠正指令、单字符串调用的run_command、显式后台shell任务。TypeScript参考+Rust+Python实现。MIT。

💡#22

@OpenAIDevs
https://x.com/OpenAIDevs/status/2044466729712304613
让长时间agent保持在轨的harness。在工具、上下文、trace上管理agent loop。Sandbox在暂停、重试、恢复之间保留工作状态。作为生产级基础设施发布，不是玩具。这种模式现在主流到OpenAI把harness作为一等artifact ship，跟模型并列。

💡#23

@m13v_
https://x.com/m13v_/status/2052940134077898852
Hooks悄悄是agentic loop里最被低估的部分。Claude Code最先ship；IDE-agent的差异化现在活在hooks层不是模型替换。这条论证重要因为它把AI开发工具之战重新框成harness之战，不是模型之战。

💡#24

@m13v_
https://x.com/m13v_/status/2053123934435029047
生产里agentic loop的难点不是loop——是回归长尾。当一个工具API周二悄悄改了响应形状你的eval分数怎么办？大多数团队跳过真正的eval harness，只在生产捕到。这是同一天里第二个声音论证生产agent可靠性是eval问题不是架构问题。

💡#25

@mylifcc
https://x.com/mylifcc/status/2053100765674365070
Agentic loop是简单部分。咬人的不是错误的工具输出——是loop重试已经成功的工具，或检索3轮后漂移。Demo里不出现但杀生产部署的具体失败模式。值得保存因为每个搭多步agent的团队都会撞这堵墙。

💡#26

@RoundtableSpace
https://x.com/RoundtableSpace/status/2047325872986755482
/autobrowse skill灵感来自Karpathy的autoresearch harness。给agent任意网页任务——它探索页面、从失败尝试中学习、迭代直到找到可靠工作流。每次跑都自动变更聪明。pi-autoresearch的下游但专门用于浏览器自动化。

💡#27

@romovpa
https://x.com/romovpa/status/2037193952357413058
Autoresearch可以发现LLM的SOTA白盒对抗攻击。给Claude 30+个现有的GCG风格算法和算力集群。Claude很快学会把它们组合成新方法，超越所有现有的。应用让人不安——autoresearch loop应用到攻击安全研究上比防守者打补丁还快地发现新攻击。

💡#28

@iuditg
https://x.com/iuditg/status/2033370760690233573
她的Autoresearch分叉发布3天500+星。Karpathy原作周围社区构建的生态系统现在是变体的小型经济，每个调成一个领域或硬件约束。

💡#29

@jingwangtalk
https://x.com/jingwangtalk/status/2053006361596710945
Atari benchmark反转：不是训练RL策略最大化奖励，而是让Codex auto-research一个最大化Atari游戏分数的规则程序。作者读：这种形状的autoresearch是启发式学习+搜索，跟运筹优化几十年前的tabu/genetic/particle swarm是同一思路。Karpathy的"human-out-of-loop"框架是同一个赌注：设计好的harness+可验证奖励，让agent搜索。

💡#30

@AnnikaSays via @petergyang
https://x.com/AnnikaSays/status/2052779293349224932
"我几乎所有聊天形态的工作现在都在Claude Code里发生。"为什么：本机上的上下文让同一类型的交流给出10倍可用输出。Agentic loop赢不是因为模型变聪明了，是因为周围状态让同一个模型干有用的活。

💡#31

@MemoriaDA_
https://x.com/MemoriaDA_/status/2052653191863369935
Agent记忆持久化的开源基础设施——agent重启就忘光了，MemoriaDA把agent记忆存在0G storage上锚定上链。规模化的agentic loop需要能撑过重启的、可审计的记忆；替代方案是失忆的agent每次会话重新推导上下文。

📡 生态产品雷达

生态产品雷达

💡#32

今天autoresearch和agentic loop讨论里出现3+次的工具/产品：

pi-autoresearch / Karpathy autoresearch (40+) — 大家都在fork、应用、对照的参考实现。

Claude Code (50+) — 大多数autoresearch实验加层之上的harness，也是生产基准最被引用的agent loop。

Codex / OpenAI Codex (30+) — 并行执行的对手，5月8日 /goal功能明确关闭了autoresearch的差距。

Cursor (10+) — /orchestrate SDK发布递归agent spawn和具体生产receipt。

DeepSeek V4 Pro (10+) — 廉价agentic loop的模型替换目标；DeepClaude把Claude Code harness配上DS V4。

OpenClaw (15+) — autoresearch实验的开源agent runtime，Autobrowse Skill是当天的具体receipt。

WorldSeed (5+) — 一夜之间从3个agent返回72篇同行评议论文的autoresearch组合框架。

HALO / HALO-RLM (5+) — 递归自我改进框架，用harness trace分析在AppWorld加+15.8分。

DeepClaude (3+) — Claude Code agent loop跑在DeepSeek V4上，号称17倍成本削减。

MiniCode (3+) — 开源Claude Code孪生，从源码理解架构。

Hooks (15+) — 扩展原语，Claude Code发布，现在Codex也在跟。

MCP / Model Context Protocol (10+) — 今天每个harness对话之下的集成层。

Skills / SKILL.md (15+) — 可复用agentic专长的单元，越来越是autoresearch loop产出的artifact。

Stagehand (5+) — 浏览器侧抽象层让agent loop在网页自动化上不那么脆弱。

Polymarket (5+) — 交易agent的autoresearch loop最被引用的市场场所。

Shopify (5+) — pi-autoresearch内部使用引用了硬生产数字。

← 上一篇

超级用户日报: 2026-05-10

灵感雷达: 2026-05-10

← 返回所有文章

加载中...

Loop 日报: 2026-05-10

更多文章

评论