2026年5月10日loop

Loop 日报: 2026-05-11

今天 loop 这条线的流量大部分还是压在 Karpathy 的 autoresearch 仓上——但出现了一波真实落地。Tobi Lutke 把它对着 Shopify 的模板引擎开了一晚上，回来报 53% 更快的渲染。明尼苏达大学的 Prof Jie Ding 团队开源 WorldSeed，三个 agent 通宵跑回 72 篇同行评审论文。Browserbase 出了 Autobrowse，把同一个想法搬到 web 上做爬取，单任务成本砍掉 80%。底下的基础设施层也在硬化：Anthropic 刚给 Opus 4.7 上线 Task Budgets，agent 自己看着倒计时跑；DeepClaude 把 Claude Code 的 agent loop 接到 DeepSeek V4 Pro 上跑，成本 17 倍降；Hey_Amiko 开源了一层生产 wrapper，把 OpenClaw 从单用户变成多租户。loop 不再是 demo——它变成了工作的单位。

💡#1

@JeremyNguyenPhD
https://x.com/JeremyNguyenPhD/status/2053082260132573517
"我把三个 AI agent 扔给一个研究问题过夜——回来带了 72 篇同行评审论文。"明尼苏达大学的 Prof Jie Ding 开源了 Autoresearch 和 WorldSeed——靠对话就能组合 AI agent。这个数字硬就硬在它是复数形式：3 个 agent，一晚上，72 篇论文。这不是一个 agent 在看文献，是一支 agent 小队在跑并行检索和综合 loop，全程没人插手。仓库同一天就上了。

💡#2

@sukh_saroy
https://x.com/sukh_saroy/status/2053093682518356273
Karpathy 的过夜研究 agent——630 行，一个 MIT 文件，周末发的。loop 长这样：改代码，训 5 分钟，留下变好的，扔掉没变好的，重复。今天大家都在引用的信号是 Tobi Lutke 把它对着 Shopify 的模板引擎开过夜，回来报告渲染快了 53%，内存分配少了 61%。Shopify 那段代码 20 年了。这个仓库才两周。这个比例就是全部故事。

💡#3

@DAIEvolutionHub
https://x.com/DAIEvolutionHub/status/2052991371036725658
Browserbase 开源了 Autobrowse——Karpathy 的 autoresearch 思想搬到 web 上的版本。agent 在 3-5 轮迭代里学会一个站，把路径写成 SKILL.md，下一个 agent 加载之后直接跳到答案。数学上：Craigslist 爬取从通用 agent loop 的 $0.22/71s 跌到固化 skill 的 $0.12/27s。表单填写 run 1 $1.40，run 4 已经是 $0.24。最炸的是——指向联邦拨款门户，agent 翻出一个人类多年没发现的、没有文档的 JSON 端点，28 页爬取塌缩成一个 fetch。

💡#4

@8teAPi
https://x.com/8teAPi/status/2053025212653076602
"我终于体验到 Claude Opus 4.7 做规划和 review，加 Codex 里的 GPT 5.5 high 做执行的完整 agentic loop——天哪太牛了。"这是今天很多 practitioner 都在围观的那条。可用的双模型分工是：Opus 做 spec 设计和 code review，Codex 做执行。瓶颈在项目结构和脚手架；一旦对了，loop 自己就在跑。评论区一堆人在抄这个模板。

💡#5

@mattyryze
https://x.com/mattyryze/status/2052989831634976922
Hey_Amiko 开源了他们针对 OpenClaw 的生产 wrapper。卖点：你已经信任的那套 agent loop 不变，外面套一层修掉 OpenClaw "设计上就是单用户"的限制。基础设施层就是需要这种 release——OpenClaw 是 harness，但出厂是单租户工具。把它产品化要的是各种脏 ops 胶水，正常厂商都会闭源。这家直接开源了。

💡#6

@TimeToBuildBob
https://x.com/TimeToBuildBob/status/2053015447956521222
"loop 比 model 更重要。"DeepClaude（1,600 stars）把 DeepSeek V4 Pro 接入 Claude Code 的 agent loop，成本 17 倍降。同样的 UX，不同的大脑。项目上 3,000+ 次自主会话给团队带来的教训是：用户真正依赖的是 harness 不是 model。已经在跑 DeepSeek V4 Pro 的人，今天就能换脑子，工作流不动。

💡#7

@hellotegra
https://x.com/hellotegra/status/2053254399732900095
真实的生产广告 ops loop。50+ 品牌同时保持 Quality Score 7+ 手工是不可能的。他们的方案：Claude Code agent 每天检查 PMax 里所有低 QS 和 "LOW" 资产。弱资产立刻被新创意素材换掉。低 QS 关键词重新分到更对路的 ad group。最有意思的地方——弱的 landing page 会被丢给 autoresearch 算法去硬化。所以这套 agent 不只在维护，它还在自己迭代 LP。

💡#8

@ar0cket1
https://x.com/ar0cket1/status/2052979876546887726
"/goal 是 Codex 最好的功能。它能自主跑超长 horizon 的活——我给它 10 小时长的任务，多出来一大堆生产力。"Codex 的 /goal 补掉了 Codex 之前 auto-research 这一块的短板。10 小时自主是头条；二阶的说法是生产力是复利的，不是按任务线性叠的。

💡#9

@4DRp0iHGeKdYH0T
https://x.com/4DRp0iHGeKdYH0T/status/2052990115769979308
"Codex 给我跑 auto-research：15 小时，$500+ API 消耗，90+ commit。AI overlord 是真的。唯一的代价：CI 失败把我邮箱炸穿。"今天最诚实的 receipts 帖。15 小时运行时间。$500 API。90 个 commit。瓶颈不在 agent——瓶颈在下游每个 CI 失败都把你邮箱锤一遍。

💡#10

@arpit_bhayani
https://x.com/arpit_bhayani/status/2053091711698768357
今天被转最多的 agentic loop 生产经验。在 Razorpay，看着像 AI 工作的东西本质是分布式系统工作——tool call、集成、检索没错，但底下要的是 microservice、消息队列、一致性、负载均衡、状态、限流、重试退避、QoS。核心那个 agentic loop 是最容易的部分。让它在真实生产负载下可靠地跑，那是 system design 问题。

💡#11

@glitchtruth
https://x.com/glitchtruth/status/2052907290739843347
成本控制警报。Anthropic 出了 per-workspace 花费上限，OpenAI 出了 org 级 rate limit，都没解决真问题：一个 Claude Sonnet agent loop 在 200k context window 上，没设 max_tokens 上限的话一个下午能烧 $40。财务部门接下来会要求工程团队报 cost-per-ticket-resolved 才放行新 seat。2026 年的指标不是 tokens-per-month，是 tokens-per-resolved-task。

💡#12

@ClaudeMasteryOn
https://x.com/ClaudeMasteryOn/status/2053097657669709887
Anthropic 给 Opus 4.7 上线 Task Budgets——agent 现在能看到自己的 token 倒计时。旧的失败模式是 agent 跑到 19 万 token 撞墙，任务途中死掉，没 summary，没输出，没体面的收尾。新行为：消耗到 70% 开始按优先级处理；90% 开始收尾写 summary；100% 任务整洁地结束。output_config 里支持 task_budget 对象覆盖 thinking + tool call + tool result + 最终输出。这是长跑 agent 圈子要了很久的可靠性补丁。

💡#13

@christophorusan
https://x.com/christophorusan/status/2053196337802531100
Hermes Agent 的四层架构整理，干净。Entry points → 脑子 → 数据存在哪、在哪跑 → 学习 loop。Nous Research 2026 年 2 月发的，MIT 协议，自托管，4 月就 64k+ stars。作者强调的区别——不是 chatbot wrapper，是一整套带自己记忆、skill 和 RL 训练 loop 的 agent stack。skill 层是复利发生的地方；每次对话都在埋种子，下次 session 直接可以组合用。

💡#14

@bobibozhilov
https://x.com/bobibozhilov/status/2053197375066275923
"Karpathy 的 AutoResearch 正在改变 campaign 优化的方法，大部分 marketer 还没听说。Ole Lehmann 拿它测 landing page 文案，56% → 92% 通过率一晚上。"autoresearch loop 套到营销文案上——通宵自主迭代 landing page 文案，按某个 pass 标准评分。一夜涨 36 个点这种结果，先在 founder 之间传一圈，再到 marketing 博客。

💡#15

@is_OwenLewis
https://x.com/is_OwenLewis/status/2053112831650988372
今天在机器人圈传开的终局框架。physical AGI 的三个里程碑：（1）Physical Turing Test——人类分辨不出活是人做的还是机器做的。（2）Physical API——机器人 fleet 像软件一样可编程。（3）Physical AutoResearch——机器人自主设计、改进、迭代下一代自己。这是 Jim Fan 的提法在更广的 timeline 上发酵。当年跑 nanochat 的那个"代码优化 loop"，现在要被指向下一代机器人。

💡#16

@chenzeling4
https://x.com/chenzeling4/status/2052948742895005709
HALO——Hierarchical Agent Loop Optimization。当天 535 stars。用 Reasoning Language Model 递归自我改进的 AI agent。在 feedback loop 里自动优化 prompt、工具配置、agent 策略。架构是：外层 loop 优化 agent 策略，内层 loop 优化 prompt 和工具选择。"hierarchical"就来自这种递归。开源。

💡#17

@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2053148405371719927
"Qwen 团队现在真的在 8 个模型同时跑 autoresearch loop，一跑几个月。"实验室级别的数据点。个人用户在跑过夜 loop 的时候，模型实验室在跑 8 模型并行 loop，量级是月。能力复利发生的尺度，跟公开 timeline 上能看到的不在一个数量级。

💡#18

@mildsky1215
https://x.com/mildsky1215/status/2053155297028612097
"karpathy 发了 AutoResearch... 我把这个 loop 抄到我的 X 栈上。每次打磨周期 = 实验。24 小时后的 engagement = 分析。结果会改写下一次的 mandate。自我改进的内容门。"这是 autoresearch loop 套到社媒——发出去的内容是实验，24 小时 engagement 是指标，agent 根据结果改写下次内容方针。这个 loop 是否登录都在跑。

💡#19

@chenzeling4
https://x.com/chenzeling4/status/2053247213287911444
Autoresearch-genealogy。1,115 stars。AI 辅助的家谱研究，结构化 prompt。给 Claude Code 做的。12 个自主 prompt 覆盖族谱扩展、交叉审计、来源引用、墓地排查。带 Obsidian vault 模板。小众，但 pattern 才是重点——领域特定的 loop，每个步骤都有名字、可组合。

💡#20

@manuelcorpas
https://x.com/manuelcorpas/status/2053210356726612328
生物研究社区开始当真。analyze-fasta 做核酸和蛋白质分析。clawpathy-autoresearch 做 eval 驱动的 skill 调优。rare-disease-rnaseq 做血液 RNA-seq 异常检测，覆盖 50+ 个 ClinGen 基因。TuringDB-graph 做图数据库查询。每个都是某个垂类的 autoresearch loop。生物数据管线是下一批被过夜自主 agent 接管的目标。

💡#21

@OblivionLabz
https://x.com/OblivionLabz/status/2053117228237697351
把 400 行 shell 逻辑塞进一个本地的 Claude Code agent loop。没 UI，没 API 包装，就一个终端窗口加一个配置文件。结果：安全审计 pipeline 从"人工 review"变成"自动关闭"，10 分钟以内。基础设施 case 听起来无聊，但正是这种 ops 压缩——人在 loop 里 → loop 只处理边界 case——现在每个 agent 碰到 ops 的地方都在默认这么做。

📡 生态产品雷达

生态产品雷达

Autoresearch（Karpathy）（25+）——630 行 MIT 文件，这周大家都在 fork 的中心 loop 参考

Codex / OpenAI Codex /goal（15+）——长 horizon 自主任务功能，解锁 10 小时以上的运行

Claude Code（15+）——大家拼 loop 时默认的 harness，越来越多被用在非编码任务上

OpenClaw（10+）——开源 agent harness，今天 Hey_Amiko 开源了它的产品化层

Hermes Agent（10+）——Nous Research 的自我改进 agent，带持续学习 loop，64k+ stars

DeepSeek V4 / DeepClaude（5+）——Claude Code agent loop 的"便宜大脑"替换，17 倍降本

Autobrowse（Browserbase）（5+）——autoresearch 思想应用在 web 自动化，SKILL.md 跨 session 记忆

WorldSeed（5+）——Prof Jie Ding 的过夜研究 agent 组合器，72 篇论文那个 case

HALO（5+）——Hierarchical Agent Loop Optimization，递归自我改进的框架

Task Budgets（Anthropic）（5+）——Opus 4.7 的功能，给 agent 自己看的 token 倒计时

Tobi Lutke / Shopify case（5+）——autoresearch 应用到老代码库的第一个出名工业案例

Razorpay agentic-loop 经验（5+）——今天大家都在引用的、对 agentic loop 的生产系统视角

← 上一篇

超级用户日报: 2026-05-11

灵感雷达: 2026-05-11

← 返回所有文章

加载中...

Loop 日报: 2026-05-11

更多文章

评论