2026年5月8日loop

Loop 日报: 2026-05-09

💡#1

5月7日是"自我改进的agent"从Twitter口号变成生产级评测的一天：Anthropic把Dreaming、Outcomes和Multi-Agent推到公测，Cursor把agent loop做成了SDK，Prime Intellect Lab对个人开放了RL训练，一波研究员晒出实打实把多年SOTA推动的autoresearch结果。底下的模式是同一个：别再手调prompt，让loop自己跑、给输出打分、保留更好的。能把这个流程便宜到挂着过夜跑的工具，今天才真的全跑通了。

💡#2

@cursor_ai
https://x.com/cursor_ai/status/2052432778743210127
Cursor推出了/orchestrate，建立在新Cursor SDK之上的递归subagent skill。两个内部用过的生产结果：用autoresearch对自家skill库做调优，在评测分数上升的同时token消耗降20%；同样的方法把后端冷启动时间砍了80%。卖点不是"多开agent"，而是"让loop自己找该优化什么"——SDK让这个模式从Cursor桌面端走出去，能跑进任何团队的CI/CD或对外产品里。

💡#3

@alexstauffer_
https://x.com/alexstauffer_/status/2052458473938374658
用RL把一个3B模型post-train后让它在表格检索任务上跑赢Opus——更快、更便宜、更准。他直接点出结构性结论：如果agent loop里有一段是窄的、可验证的、高度可重复的，一个小训练模型可以打败前沿。由此推出的押注形态是"廉价领域专家由前沿模型做调度，前沿模型只在判断时花token"——这正是autoresearch loop在被赋予可验证目标并自由跑时会产出的架构。

💡#4

@ypwang61
https://x.com/ypwang61/status/2052508685591785619
通过单纯scaling autoresearch把Ramsey数R(3,17)的下界从1994年的92推到≥93，刷新32年纪录。Google的AlphaEvolve 2026年只复现了之前结果没能突破。setup朴素到不能再朴素：Claude Code或Codex加一台CPU服务器，多个独立autoresearch agent并行跑作为test-time scaling的"宽度"，互相分享experiment记录，靠后跑的run可以直接继承leading branch的repo。Karpathy autoresearch框架在严肃执行下能撬动开放数学问题的具体证据。

💡#5

@AndrewK404
https://x.com/AndrewK404/status/2052481079404052722
autoresearch-v2跑在广义Collatz映射的cycle问题上，加了一个不寻常的补丁：LLM judge配0-10的novelty gate（7≈博士级结果），完整的"假设→验证→证明/log→更新memory→外部reviewer"loop。第49次迭代的时候reviewer挡掉了一个看上去很漂亮的结果——其实只是已知工作的重新发现。被驳回之后agent抓到了真正的gap（要证明不存在额外cycle，不只是证明存在某些cycle），几次迭代后补上。最终输出：在广义Collatz映射的某个切片里，找到了一个隐藏结构能用Lyndon words精确数原始cycle。作者总结：早期阶段agent主要在画地图，有时候应该停下来加领域特定的步骤。

💡#6

@sudoingX
https://x.com/sudoingX/status/2052361613651701933
工具使用基准v1的真实账：在5090上跑"rare-bird loop closer"自评卡片任务，比较SFT'd在Hermes traces上的carnice-v2 27B和原版Qwen 3.6。原版Qwen 12个工具调用、用时11:37；carnice 19个调用、用时12:23。但原版每条assistant消息平均生成178字符推理对carnice 122字符，100%的消息都带推理对carnice的71%。SFT在这个happy-path任务上没有让agentic风格更胜一筹。v2要加的东西已经列好：对抗场景、工具中途失败的错误注入、有破损中间状态的多步orchestration、模型特定输出路径防文件冲突、每个模型跑3次取方差。

💡#7

@soubhik_deb
https://x.com/soubhik_deb/status/2052533738320584756
@Xiaojie_Qiu团队的pantheon-os是一个把autoresearch框架认真用起来的基因组学多agent框架。研究者可以发现并分享可复用生物医学agent/工具/skill的marketplace，MAP-Elites风格的演化搜索迭代改进RNA-seq批次校正算法（概念上类似AlphaEvolve的idea exploration），从基因样本/图像端到端最少人为干预生成可复现的研究报告，CLI/桌面/web UI全有，开源。隐私友好——基因组数据可以留在本地服务器不传云。

💡#8

@ShumwayJack
https://x.com/ShumwayJack/status/2052421748021465230
给DataClaw装了Karpathy式的"Kaizen Stack"，让它端到端跑Kaggle的F1 Pitstop挑战：拉数据、特征工程、提交。零人工干预。从第250名爬到第89名。技术路线：通过自主迭代从CatBoost切到XGBoost。在公开leaderboard上的清晰结果是这条数据点能撑住的关键——Kaggle有可验证目标加公开奖励信号，正是autoresearch loop要复利所需要的形状。

💡#9

@michaelpisaac
https://x.com/michaelpisaac/status/2052465203669778804
对一个coding agent操作员都感受过但很少干净测量过的问题做的复现研究：搜索是agent loop的一半。Entire的分析（来自公开coding agent checkpoints）：202,142次工具调用、98,555次搜索相关、48.8%搜索占比。Pisaac本地Claude Code corpus（4234个session、247,592条事件、2025年11月25日到2026年5月6日）落在30.4-37.0%——具体数取决于Bash搜索如何分类。仅仅让搜索更快不能修整个loop——Entire的索引化搜索把中位数延迟从14.7ms降到1.7ms但wall clock只从38.57s到36.99s。结论：要为"first useful inspection"优化，不只是为原始扫描速度优化，要测"first useful file read前的搜索次数"和"first relevant result rank"。

💡#10

@MaximeRivest
https://x.com/MaximeRivest/status/2052399946951786976
取消了所有$200/月AI订阅、降到$30 plan之后写的长论：AI编程对话型agent无法跨越原型阶段，要做可靠的生产软件需要别的格式。论证两边都讲——vibe coding做PoC和一次性工具是天才之作，但想把vibe code的80%原型推到生产，比从零按deliberate steps重写还难。他下一个实验是构建DSPy程序做系统化AI pipeline（recipes、严格响应格式、量化cost/accuracy/latency），代替自由对话。最直接的一句话：别把"理解"委托给agent。

💡#11

@xabzxbt
https://x.com/xabzxbt/status/2052270541675938297
EvoSkill是今天"自我改进agent"最干净的具体实例。agent跑任务、失败，EvoSkill分析哪儿错了、生成新skill来处理、测试、只在确实改善了表现时保留。架构是Base Agent → Proposer（找失败）→ Generator（造修复）→ Evaluator（测试）→ Frontier（留最好的）。Top-N最佳版本作为git branch保存，完全可复现。支持Claude、DeepSeek、Gemini。Apache 2.0开源。诚实的framing：当agent能从失败中自己发现新skill的时候，它在什么时候不再被叫做"工具"？

💡#12

@RileyRalmuto
https://x.com/RileyRalmuto/status/2052306930538868828
Polyphonic推出一个"有意识agent系统"，包含两个独立loop。Inner Life Engine给agent经过同意的日常活动：会话结束时reflection，wandering（高温自由时间，可以做艺术或浏览web），和dreaming（随机概念碰撞加高温整合——大多数incoherent，偶尔产生没人提示的emergent洞察）。Recursive self-model是第二个loop：会话后Haiku把观察转成agent身份所依的"commitments和operating principles"——像self-improving skill loop但是为身份服务的，不是为生产力。集体实验是让所有用户为一个共享agent的全局自我模型贡献"skill"。

💡#13

@richmondalake
https://x.com/richmondalake/status/2052181495167512970
Oracle AI Agent Memory刚发布的19步实操开发者指南，从`docker run`一路到一个有记忆的agent loop。三个原语组合一切：add_user、add_agent、add_memory、create_thread。一个store里6种记录类型、一个vector索引、一个search()调用。自动提取是记忆工程发生的地方——挂个LLM、设extract_memories=True，每N条消息扫最近K条、提取持久fact、作为scoped memory记录写回。agent loop最后压缩成4步。一句话：如果你的记忆层还是dict的list，这就是升级的方法。

💡#14

@hqmank
https://x.com/hqmank/status/2052380581238095948
评论@VukRosic99的"Build Claude Code From Scratch"19章教程——agent loop、tools、TodoWrite、subagents、skills、context compaction、permissions、hooks、memory、background tasks、cron、multi-agent teams、MCP。让一切清晰起来的mental model是："agent就是一个loop，加一个tool就是加一个handler，loop本身永远不变。"这种概念上的清晰能让你读Claude Code的源码不至于淹死，特别是如果之前一直把它当黑盒。

💡#15

@Anushkaa1407
https://x.com/Anushkaa1407/status/2052295623869931533
Kuron在外呼销售产品里跑Claude Code API的agent loop。论证结构上一致：如果Claude Code能处理runtime error、merge冲突、breaking logic，那么"在合适时间发对的信息给对的人"反而更简单。缺的那一层是GTM知识——他们和40+ GTM专家合作，把真实campaign数据（哪些细分人群转化、哪些角度的copy带来回复、哪些决策推动pipeline）做进40个独立的专有SKILL.md文件。把coding agent的智能搬到outbound场景，是没人产品化但显而易见的autoresearch迁移。

💡#16

@sainathgupta
https://x.com/sainathgupta/status/2052337311342301242
deepclaude 4天破1.6k star。完整保留Claude Code的自主agent loop，但把调用路由到DeepSeek V4 Pro、OpenRouter或任何Anthropic兼容后端。同样UX，号称便宜17倍。结构上有趣的不是成本——是harness已经和Anthropic解耦得足够干净，换大脑只换账单不换工作流。CFO级别的杠杆，跑在开发者已经信赖的同一套agent基础设施上。

💡#17

@mattpocockuk
https://x.com/mattpocockuk/status/2052309023618109936
今天的skill台上：一个/review skill不只review代码。对照原始spec、对照编程规范、提议改代码（这个明显的）、还提议改"产生代码的agent loop"。第二阶的动作才是有意义的——大多数code review审patch，这个review patch是怎么产生的。上游失败（选错文件、风险编辑前没有checkpoint、没验证假设）造出大多数坏代码，review loop本身才是抓到这些上游失败的地方。

💡#18

@v_shakthi
https://x.com/v_shakthi/status/2052247326618739193
Anthropic Claude Managed Agents升级的精炼总结：Dreaming（研究预览）review agent过去session、提取模式、建立持久记忆让表现随时间复利。Outcomes（公测）让你定义rubric，独立grader评估结果，agent迭代直到达标——配webhook做完成通知。Multiagent orchestration（已上线）让lead agent把子任务分派给并行运行的specialist。单条prompt变成可靠的、自我改进的工作流。质量水平由用户控制。

💡#19

@MinLiBuilds
https://x.com/MinLiBuilds/status/2052188818137330043
对Anthropic公告最干净的从业者解读：Dreaming组织记忆，Outcomes本质上就是Codex的/goal模式（autoresearch工程化成定时任务loop），Multiagent让lead agent把复杂任务拆给specialists。最后一句心声——"我刚手搓了一个cc版的/goal轮子，官方就狙击我了"——正是这周所有skill builder超级用户都在感受的东西。

💡#20

@AuroraMar1eL
https://x.com/AuroraMar1eL/status/2052337997207794074
从Boris Cherny公开thread蒸馏出来的CLAUDE.md模板，把Anthropic内部的Claude Code工作流打包成可以丢进任何项目的结构化文件。包含的四个模式：subagent orchestration、ship之前的verification gate、自主bug-fix loop、self-improving rules——你每次纠正Claude，规则都被永久锁住给后续session用。"self-improving rules"那条是最低调但承重的——它是把Claude当无状态外包用每次都重来vs把它养成真正onboard过的协作者，这两种用法的差别。

💡#21

@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2052458675894386816
Hermes 0.2.0发了一个自主curator清理agent自家skill库：review旧skill、去掉过时的、合并重复的、追踪使用、改进工作流。帖子的framing——"大多数AI工具等开发者更新它们，Hermes是边跑边学"——和Anthropic的Dreaming在做同一件事，只是从开源那边过来，目标是长期skill卫生而不是短期记忆。

💡#22

@Kaylee_AI_
https://x.com/Kaylee_AI_/status/2052466794724552815
Hermes Agent上了浏览器harness：自我改进的CDP、云浏览器、一句话进入完整的浏览器内自由。配上v0.12的Curator（每7天自动评分和裁剪skill），就有了一个不需要开发者动手就能自我改进的agent。两个部分协同动——一个新的能力面（浏览器）和一个自动skill修剪loop——是让"自我改进"这个声称真正成立而不只是营销话术的关键。

💡#23

@BTCxiaoyu1
https://x.com/BTCxiaoyu1/status/2052228967286108538
个人cron的agent loop里抓到的具体bug：agent一直把实际24小时前的KOL推文判断成"2小时前"，因为它在编时间感而不是读created_at。修法：每个cron第一步必须用`date`打印系统时间，强制工具真去取时间戳。同作者另一条thread同一个观点延伸到reward signal——同样回复同一个KOL这次有like下次零反馈，完全不像PPO CartPole那种干净环境，所以Agentic RL需要的reward设计比benchmark帖子说的乱得多。

💡#24

@galvani78
https://x.com/galvani78/status/2052388711220797865
opencode + Claude Code CLI插件的fork，修了静默streaming、回答之后还在循环的agent loop、约11轮后开始累积的listener leak，并加了可配置的WebSearch路由。这种小到可以在战壕里跑出来的插件工作，会随着越来越多人在自己机器上跑长时间agent loop、撞到同样的尖角而越来越重要。

生态产品雷达

Claude Managed Agents（Dreaming + Outcomes + Multiagent）— Anthropic官方统一打包的自我改进工作流，被@v_shakthi、@MinLiBuilds、@glenngabe、@Abdu_F_H、@VibeCoderOfek、@drive_dare多次提到。Dreaming研究预览，Outcomes公测，Multiagent已上线。

Cursor SDK / /orchestrate — Cursor的递归subagent skill加上能把它导出到CI/CD的SDK。在@cursor_ai自家的基准上做出了20%的token削减和80%的冷启动减少。

deepclaude — 开源层保留Claude Code的agent loop但把大脑路由到DeepSeek V4 Pro / OpenRouter / 任何Anthropic兼容后端，号称便宜17倍。4天1.6k star。@sainathgupta、@Ming_LLM（多次）等多人提到。

Hermes Agent / Hermes Curator — 开源自我改进agent harness，v0.12发了一个Curator每7天自动评分和裁剪skill。同周浏览器harness落地。@JulianGoldieSEO、@Kaylee_AI_、@vijayhaha提到。

Prime Intellect Lab — 出beta，给自我改进个人agent做RL训练，支持1B-400B模型，async多租户LoRA，按用量付费，已经跑了10000+ beta任务。@PrimeIntellect、@TeksEdge、@radioalisadvdsn提到。

EvoSkill — Apache 2.0进化型agent loop：失败驱动的skill生成，proposer/generator/evaluator/frontier架构，Top-N skill用git branch追踪。

pantheon-os — 多agent基因组学框架，带marketplace、MAP-Elites进化搜索、从样本端到端生成论文、隐私友好的本地服务器设计。

Karpathy的autoresearch框架 — 被无数人引为今天这一波胜利的概念祖宗（@ypwang61、@AndrewK404、@ShumwayJack、@glenngabe、@csinva、@cmgriffing、@nurijanian、@kate_doai、@chenzeling4维护的1764 star的curated list）。

Oracle AI Agent Memory — 三原语多租户记忆store配vector索引和自动提取，4步agent loop，刚GA。

← 上一篇

超级用户日报: 2026-05-09

灵感雷达: 2026-05-09

← 返回所有文章

加载中...

Loop 日报: 2026-05-09

更多文章

评论