2026年5月10日loop

Loop 日报: 2026-05-11

今天 loop 这条线的流量大部分还是压在 Karpathy 的 autoresearch 仓上——但出现了一波真实落地。Tobi Lutke 把它对着 Shopify 的模板引擎开了一晚上,回来报 53% 更快的渲染。明尼苏达大学的 Prof Jie Ding 团队开源 WorldSeed,三个 agent 通宵跑回 72 篇同行评审论文。Browserbase 出了 Autobrowse,把同一个想法搬到 web 上做爬取,单任务成本砍掉 80%。底下的基础设施层也在硬化:Anthropic 刚给 Opus 4.7 上线 Task Budgets,agent 自己看着倒计时跑;DeepClaude 把 Claude Code 的 agent loop 接到 DeepSeek V4 Pro 上跑,成本 17 倍降;Hey_Amiko 开源了一层生产 wrapper,把 OpenClaw 从单用户变成多租户。loop 不再是 demo——它变成了工作的单位。
💡#1
@JeremyNguyenPhD
https://x.com/JeremyNguyenPhD/status/2053082260132573517
"我把三个 AI agent 扔给一个研究问题过夜——回来带了 72 篇同行评审论文。"明尼苏达大学的 Prof Jie Ding 开源了 Autoresearch 和 WorldSeed——靠对话就能组合 AI agent。这个数字硬就硬在它是复数形式:3 个 agent,一晚上,72 篇论文。这不是一个 agent 在看文献,是一支 agent 小队在跑并行检索和综合 loop,全程没人插手。仓库同一天就上了。
💡#2
@sukh_saroy
https://x.com/sukh_saroy/status/2053093682518356273
Karpathy 的过夜研究 agent——630 行,一个 MIT 文件,周末发的。loop 长这样:改代码,训 5 分钟,留下变好的,扔掉没变好的,重复。今天大家都在引用的信号是 Tobi Lutke 把它对着 Shopify 的模板引擎开过夜,回来报告渲染快了 53%,内存分配少了 61%。Shopify 那段代码 20 年了。这个仓库才两周。这个比例就是全部故事。
💡#3
@DAIEvolutionHub
https://x.com/DAIEvolutionHub/status/2052991371036725658
Browserbase 开源了 Autobrowse——Karpathy 的 autoresearch 思想搬到 web 上的版本。agent 在 3-5 轮迭代里学会一个站,把路径写成 SKILL.md,下一个 agent 加载之后直接跳到答案。数学上:Craigslist 爬取从通用 agent loop 的 $0.22/71s 跌到固化 skill 的 $0.12/27s。表单填写 run 1 $1.40,run 4 已经是 $0.24。最炸的是——指向联邦拨款门户,agent 翻出一个人类多年没发现的、没有文档的 JSON 端点,28 页爬取塌缩成一个 fetch。
💡#4
@8teAPi
https://x.com/8teAPi/status/2053025212653076602
"我终于体验到 Claude Opus 4.7 做规划和 review,加 Codex 里的 GPT 5.5 high 做执行的完整 agentic loop——天哪太牛了。"这是今天很多 practitioner 都在围观的那条。可用的双模型分工是:Opus 做 spec 设计和 code review,Codex 做执行。瓶颈在项目结构和脚手架;一旦对了,loop 自己就在跑。评论区一堆人在抄这个模板。
💡#5
@mattyryze
https://x.com/mattyryze/status/2052989831634976922
Hey_Amiko 开源了他们针对 OpenClaw 的生产 wrapper。卖点:你已经信任的那套 agent loop 不变,外面套一层修掉 OpenClaw "设计上就是单用户"的限制。基础设施层就是需要这种 release——OpenClaw 是 harness,但出厂是单租户工具。把它产品化要的是各种脏 ops 胶水,正常厂商都会闭源。这家直接开源了。
💡#6
@TimeToBuildBob
https://x.com/TimeToBuildBob/status/2053015447956521222
"loop 比 model 更重要。"DeepClaude(1,600 stars)把 DeepSeek V4 Pro 接入 Claude Code 的 agent loop,成本 17 倍降。同样的 UX,不同的大脑。项目上 3,000+ 次自主会话给团队带来的教训是:用户真正依赖的是 harness 不是 model。已经在跑 DeepSeek V4 Pro 的人,今天就能换脑子,工作流不动。
💡#7
@hellotegra
https://x.com/hellotegra/status/2053254399732900095
真实的生产广告 ops loop。50+ 品牌同时保持 Quality Score 7+ 手工是不可能的。他们的方案:Claude Code agent 每天检查 PMax 里所有低 QS 和 "LOW" 资产。弱资产立刻被新创意素材换掉。低 QS 关键词重新分到更对路的 ad group。最有意思的地方——弱的 landing page 会被丢给 autoresearch 算法去硬化。所以这套 agent 不只在维护,它还在自己迭代 LP。
💡#8
@ar0cket1
https://x.com/ar0cket1/status/2052979876546887726
"/goal 是 Codex 最好的功能。它能自主跑超长 horizon 的活——我给它 10 小时长的任务,多出来一大堆生产力。"Codex 的 /goal 补掉了 Codex 之前 auto-research 这一块的短板。10 小时自主是头条;二阶的说法是生产力是复利的,不是按任务线性叠的。
💡#9
@4DRp0iHGeKdYH0T
https://x.com/4DRp0iHGeKdYH0T/status/2052990115769979308
"Codex 给我跑 auto-research:15 小时,$500+ API 消耗,90+ commit。AI overlord 是真的。唯一的代价:CI 失败把我邮箱炸穿。"今天最诚实的 receipts 帖。15 小时运行时间。$500 API。90 个 commit。瓶颈不在 agent——瓶颈在下游每个 CI 失败都把你邮箱锤一遍。
💡#10
@arpit_bhayani
https://x.com/arpit_bhayani/status/2053091711698768357
今天被转最多的 agentic loop 生产经验。在 Razorpay,看着像 AI 工作的东西本质是分布式系统工作——tool call、集成、检索没错,但底下要的是 microservice、消息队列、一致性、负载均衡、状态、限流、重试退避、QoS。核心那个 agentic loop 是最容易的部分。让它在真实生产负载下可靠地跑,那是 system design 问题。
💡#11
@glitchtruth
https://x.com/glitchtruth/status/2052907290739843347
成本控制警报。Anthropic 出了 per-workspace 花费上限,OpenAI 出了 org 级 rate limit,都没解决真问题:一个 Claude Sonnet agent loop 在 200k context window 上,没设 max_tokens 上限的话一个下午能烧 $40。财务部门接下来会要求工程团队报 cost-per-ticket-resolved 才放行新 seat。2026 年的指标不是 tokens-per-month,是 tokens-per-resolved-task。
💡#12
@ClaudeMasteryOn
https://x.com/ClaudeMasteryOn/status/2053097657669709887
Anthropic 给 Opus 4.7 上线 Task Budgets——agent 现在能看到自己的 token 倒计时。旧的失败模式是 agent 跑到 19 万 token 撞墙,任务途中死掉,没 summary,没输出,没体面的收尾。新行为:消耗到 70% 开始按优先级处理;90% 开始收尾写 summary;100% 任务整洁地结束。output_config 里支持 task_budget 对象覆盖 thinking + tool call + tool result + 最终输出。这是长跑 agent 圈子要了很久的可靠性补丁。
💡#13
@christophorusan
https://x.com/christophorusan/status/2053196337802531100
Hermes Agent 的四层架构整理,干净。Entry points → 脑子 → 数据存在哪、在哪跑 → 学习 loop。Nous Research 2026 年 2 月发的,MIT 协议,自托管,4 月就 64k+ stars。作者强调的区别——不是 chatbot wrapper,是一整套带自己记忆、skill 和 RL 训练 loop 的 agent stack。skill 层是复利发生的地方;每次对话都在埋种子,下次 session 直接可以组合用。
💡#14
@bobibozhilov
https://x.com/bobibozhilov/status/2053197375066275923
"Karpathy 的 AutoResearch 正在改变 campaign 优化的方法,大部分 marketer 还没听说。Ole Lehmann 拿它测 landing page 文案,56% → 92% 通过率一晚上。"autoresearch loop 套到营销文案上——通宵自主迭代 landing page 文案,按某个 pass 标准评分。一夜涨 36 个点这种结果,先在 founder 之间传一圈,再到 marketing 博客。
💡#15
@is_OwenLewis
https://x.com/is_OwenLewis/status/2053112831650988372
今天在机器人圈传开的终局框架。physical AGI 的三个里程碑:(1)Physical Turing Test——人类分辨不出活是人做的还是机器做的。(2)Physical API——机器人 fleet 像软件一样可编程。(3)Physical AutoResearch——机器人自主设计、改进、迭代下一代自己。这是 Jim Fan 的提法在更广的 timeline 上发酵。当年跑 nanochat 的那个"代码优化 loop",现在要被指向下一代机器人。
💡#16
@chenzeling4
https://x.com/chenzeling4/status/2052948742895005709
HALO——Hierarchical Agent Loop Optimization。当天 535 stars。用 Reasoning Language Model 递归自我改进的 AI agent。在 feedback loop 里自动优化 prompt、工具配置、agent 策略。架构是:外层 loop 优化 agent 策略,内层 loop 优化 prompt 和工具选择。"hierarchical"就来自这种递归。开源。
💡#17
@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2053148405371719927
"Qwen 团队现在真的在 8 个模型同时跑 autoresearch loop,一跑几个月。"实验室级别的数据点。个人用户在跑过夜 loop 的时候,模型实验室在跑 8 模型并行 loop,量级是月。能力复利发生的尺度,跟公开 timeline 上能看到的不在一个数量级。
💡#18
@mildsky1215
https://x.com/mildsky1215/status/2053155297028612097
"karpathy 发了 AutoResearch... 我把这个 loop 抄到我的 X 栈上。每次打磨周期 = 实验。24 小时后的 engagement = 分析。结果会改写下一次的 mandate。自我改进的内容门。"这是 autoresearch loop 套到社媒——发出去的内容是实验,24 小时 engagement 是指标,agent 根据结果改写下次内容方针。这个 loop 是否登录都在跑。
💡#19
@chenzeling4
https://x.com/chenzeling4/status/2053247213287911444
Autoresearch-genealogy。1,115 stars。AI 辅助的家谱研究,结构化 prompt。给 Claude Code 做的。12 个自主 prompt 覆盖族谱扩展、交叉审计、来源引用、墓地排查。带 Obsidian vault 模板。小众,但 pattern 才是重点——领域特定的 loop,每个步骤都有名字、可组合。
💡#20
@manuelcorpas
https://x.com/manuelcorpas/status/2053210356726612328
生物研究社区开始当真。analyze-fasta 做核酸和蛋白质分析。clawpathy-autoresearch 做 eval 驱动的 skill 调优。rare-disease-rnaseq 做血液 RNA-seq 异常检测,覆盖 50+ 个 ClinGen 基因。TuringDB-graph 做图数据库查询。每个都是某个垂类的 autoresearch loop。生物数据管线是下一批被过夜自主 agent 接管的目标。
💡#21
@OblivionLabz
https://x.com/OblivionLabz/status/2053117228237697351
把 400 行 shell 逻辑塞进一个本地的 Claude Code agent loop。没 UI,没 API 包装,就一个终端窗口加一个配置文件。结果:安全审计 pipeline 从"人工 review"变成"自动关闭",10 分钟以内。基础设施 case 听起来无聊,但正是这种 ops 压缩——人在 loop 里 → loop 只处理边界 case——现在每个 agent 碰到 ops 的地方都在默认这么做。
📡 生态产品雷达
生态产品雷达

Autoresearch(Karpathy)(25+)——630 行 MIT 文件,这周大家都在 fork 的中心 loop 参考

Codex / OpenAI Codex /goal(15+)——长 horizon 自主任务功能,解锁 10 小时以上的运行

Claude Code(15+)——大家拼 loop 时默认的 harness,越来越多被用在非编码任务上

OpenClaw(10+)——开源 agent harness,今天 Hey_Amiko 开源了它的产品化层

Hermes Agent(10+)——Nous Research 的自我改进 agent,带持续学习 loop,64k+ stars

DeepSeek V4 / DeepClaude(5+)——Claude Code agent loop 的"便宜大脑"替换,17 倍降本

Autobrowse(Browserbase)(5+)——autoresearch 思想应用在 web 自动化,SKILL.md 跨 session 记忆

WorldSeed(5+)——Prof Jie Ding 的过夜研究 agent 组合器,72 篇论文那个 case

HALO(5+)——Hierarchical Agent Loop Optimization,递归自我改进的框架

Task Budgets(Anthropic)(5+)——Opus 4.7 的功能,给 agent 自己看的 token 倒计时

Tobi Lutke / Shopify case(5+)——autoresearch 应用到老代码库的第一个出名工业案例

Razorpay agentic-loop 经验(5+)——今天大家都在引用的、对 agentic loop 的生产系统视角
← 上一篇
超级用户日报: 2026-05-11
下一篇 →
灵感雷达: 2026-05-11
← 返回所有文章

评论

加载中...
>_