2026年5月5日loop

Loop 日报: 2026-05-06

今天 loop 圈最锋利的信号是这个:autoresearch 不再只是口号,而是可以稳定复现的工作流。今天有三个不同方向的 builder 发了同样形态的东西:写一个 benchmark、写一个 agent loop、定义一个 reward function,然后走开,回来看到一段稳定 codebase 上可量化的提升。Karpathy 那个 autoresearch 原语,今天分别被用在 Solana DeFi 策略发现、vLLM 内核参数调优、代码重构优化和诉讼证据检索上。今天另外一半流量是 Anthropic 联合创始人 Jack Clark 给到 60% 概率(2028 年底前)的那个元问题:当 agent 开始改写下一个 agent 的时候,到底是什么实体在 self-improving?下面是用户真正搭起来跑通的东西。
💡#1
@aijoey
https://x.com/aijoey/status/2051243477606801900
今天最干净的"过夜跑 autoresearch"案例。这位用户把 Claude Code 指向 DGX Spark 上 Qwen3.6-35B-A3B 的 vLLM 自动调参,给了一个 benchmark 脚本,撂下一句"loop forever"。第七轮:composite score +18%。最关键的发现反直觉——把 NUM_SPECULATIVE_TOKENS 从 15 降到 1,因为 Spark 的 SM_121 在 FP4 fallback 到 Marlin FP8 的情况下,drafter 的算力反而是浪费。每一轮:agent 改 config、commit、重启 container、跑 benchmark、留或撤,约 7 分钟一周期。单流吞吐从 19.9 升到 29.7 tok/s,并发 16 从 74.9 升到 201.3 tok/s。
💡#2
@CoralOS_ai
https://x.com/CoralOS_ai/status/2051315917162975589
autoresearch loop 真正用到 DeFi 上的一个例子:CoralOS 上的 discovery agent 拿历史池子数据跑实验,写出一个针对波动率捕捉这个指标优化过的策略函数。重点不是 demo——而是 autoresearch loop 这个模式现在能横向扩展到任何"有可量化收益+策略代码可改"的领域。一旦稳定下来,这个 agent 会被换进他们 LP app 里,替掉原来那个 vanilla 策略 agent。
💡#3
@dair_ai
https://x.com/dair_ai/status/2051311905353142328
Meta FAIR 出了一篇硬论文 Autodata——一个自动构建高质量训练和评测数据的 agentic data scientist。结果直接:在 CS research QA 任务上,Agentic Self-Instruct loop 让弱模型和强模型差出 34 个点(43.7% vs 77.8%),而标准的 CoT Self-Instruct 在同样 setup 下只差 1.9 点。这个 agent 生成的题目能真正区分模型能力。整套系统还会自我元优化——一个外层循环根据"哪些 harness 改动让验证集通过率提升"来调 agent 自己的指令。126 次接受迭代之后,验证集通过率从 12.8% 涨到 42.4%。
💡#4
@aakashgupta
https://x.com/aakashgupta/status/2051330692567777777
一个真在生产环境跑的 PRD 自审 agent。它拿到 PRD,跑这位 PM 的真实 checklist(紧迫性、跟 ChatGPT wrapper 的差异化、AI 失败模式、归因风险),把评论写进文档。复利的部分是第二个 agent,每 30 分钟读一次人类对 AI 评论的修改,把这些写进 learner.md。同一个修改连续五天出现,它就发邮件提议升级 checklist。批准一次,下次 review 永久变好。多数 reviewer 是冻结的;这个会复利,没人手动改 prompt。
💡#5
@aakashgupta
https://x.com/aakashgupta/status/2051346262889554035
Hermes 是第一个真正闭合"流程反馈循环"的 agent loop。每 15 次 tool call 之后,它会读一次本次 session 哪些做对了,把本地 skill 文件改写一次。这位 PM 的竞品简报:第一周 20 分钟,第六周 8 分钟,没改过 skill 文件一行——agent 自己改了四次。这帮你想明白一件事:你拥有的所有其他 AI 工具都冻结在你最初配置它的那个版本。Custom GPT、Claude Project,session 里跑的东西它们一点都不继承。模型是租的,skill 文件是你自己的。
💡#6
@JackWoth98
https://x.com/JackWoth98/status/2051378691876237550
Gemini CLI 现在能扫过往 session,自动建议新的 agent skill——基于你最近反复在做的事。在 /settings 里打开 Auto Memory 就能用。这是把"self-improving"那一步原生化了——不再是第三方插件,是 harness 厂商自己出"流程提取"步骤。Anthropic Skill Creator、Gemini Auto Memory、Hermes 自改写 skill 文件——三家全面开打。
💡#7
@cgc1010
https://x.com/cgc1010/status/2051278186533528035
真实跑了一个月的 self-improving agent 案例。Hermes 的 USER.md(agent 对你的画像文件)已经塞到 80% 容量,安全规则、项目规则、"多用 emoji"全挤在一块。这位用户做了分层清理:USER.md 只留人格和交互风格,安全规则挪到 CORE MEMORY,系统规则到 POLICY,项目知识到 LLM Wiki。结果:内存占用 80% 降到 43%,回复变得更锋利、优先级清楚了。值得一读,因为它真实展示了跑一个月 self-improving agent 是什么手感——维护本身就是工作。
💡#8
@samuel_ferrero
https://x.com/samuel_ferrero/status/2051340585072574867
今天最干脆的一句"新 autoresearch 工作流"定义(西班牙语):"配置好 agent 然后睡 8 小时。醒来 100 个实验全跑完,每个都有 log,模型已经比你关电脑的时候更好。agent 还把每一步改动的推理过程都给你写好了。"这就是"机器在你睡觉时干活"的真正样子——而且跑这个的人已经不只是实验室研究员了。
💡#9
@danielblignaut
https://x.com/danielblignaut/status/2051401166429343790
基于 OpenAI Agent SDK 2.0 + Karpathy auto-research 的思路,搭了一个 harness。你 clone 一个 git 仓库,给一个 hypothesis 或目标,定义一个 reward function(量化+定性指标都有),让 Codex 自己迭代直到达到目标或者超过最大失败次数。冒出来的模式是:reward function + sandbox + 重启循环 = 任何代码形态问题的通用 optimizer。
💡#10
@srinitude
https://x.com/srinitude/status/2051384361023398095
他给 Pi 写了第一个扩展 pi-until-done,发到 npm。/until-done <intent> 把 Pi 自己变成 Ralph loop 里的 judge——架构有意思的点:每一轮 agent 结束之后把用户的 prompt 重新注入,直到 agent 自己用一个 tool call 说"我搞完了"。终止条件是 agent 自我宣告完成,不是 token 预算耗尽。
💡#11
@relizarov
https://x.com/relizarov/status/2051200915621794225
真实生产环境的 autoresearch loop 优化:CaseDash 的重绘时间从 20ms 压到 2ms,可执行文件从 2Mb+ 砍到 1Mb 以下,全靠 auto-research 风格的循环。用户负责设目标,并约束 AI agent 不偏离。这是 autoresearch 用在它最自然的领域——指标明确、留改撤决策可以自动化的代码优化。
💡#12
@miroburn
https://x.com/miroburn/status/2051394995655971218
Codex 的 Goal 模式和 Claude Code 的 Ralph Loop,都在跑长任务:调 Lab Club 的匹配算法到 85%+ 接受率,预计要跑好几天。他还观察到 Goal/Ralph Loop 在抓 bug 上很猛,因为 agent 钻得比任何人类审计都深。他点出了一个新难题:跨多个生产业务系统并行优化是真的难。"agent 说我在调你先暂停 Meta 广告"——可你一暂停数据就断。几百个 agent 24/7 跑起来之后,人变成了交通管制员。
💡#13
@MAXIMISEART
https://x.com/MAXIMISEART/status/2051404362501484859
一个产品级的多 agent 编排模式:Ralph 跑在 idea → research → prototype → PRD → Kanban 流水线的最后一步。它扫 GitHub 上带 `ready-for-agent` label 的 issue,开 1-4 个 subagent 在并行的 git worktree 里跑,每个用 red-green-refactor 的 Ralph loop。顺序由 Kanban 图强制约束。这是"AFK 执行"模式产品化之后的样子——issue tracker 变成了任务队列。
💡#14
@PreyWebthree
https://x.com/PreyWebthree/status/2051372081112289501
Sentient 出了 EvoSkill V1,开源工具:给一个 benchmark 加一个编码 agent,几分钟内把它演化成专家。在 Anthropic Claude Code 上的报告数据:OfficeQA 60.6% → 68.1%,SealQA 26.6% → 38.7%。在 SealQA 上演化出来的 skill 零样本迁移到 BrowseComp 上还有额外提升。模式是:跑 benchmark → 分析失败 → 从失败 trace 生成新的 prompt 和 skill → 测试迭代 → 收敛。EvoSkill 比 GEPA 进了一步——它会从零搭新 skill,不只是改老的。
💡#15
@kamathhrishi
https://x.com/kamathhrishi/status/2051127491365122085
极简主义的反面案例。这位用户把自己 GitHub 上 star 最多的项目(用 RAG 跑公开市场文件)删掉了 5 万行代码、整个 vector DB、几百万个 embedding。结果发现:把文档放一个目录里,给 agent grep 和 ls 工具就够了。两个原因:小的便宜模型现在驱动 terminal 也很稳了;连小模型都看得懂 SEC filing 的结构。"agent harness + 普通文件系统"在检索这件事上赢得了简洁性之战。
💡#16
@PaulinaStern_ via @SentientEco
https://x.com/SentientEco/status/2051285718664986879
另一种"self-improving"的形态:完全跳过多 agent 复杂度。搭一个单 agent 的自我提升循环,生成一个高度结构化的 prompt,定义 LLM 该怎么行为——单 agent 上达到 frontier lab 的精度,同时保持成本低。这是一条反主流的线:loop 不一定要多 agent 才能 self-improve。
💡#17
@hsu_steve
https://x.com/hsu_steve/status/2051282979297632635
Pi agent harness 的作者 Mario Zechner 接受采访的信号:Kimi 2.6 在编码和 agentic 流程上"已经几乎追上 Claude 4.6-7"。在他的工作流里他不再需要 frontier-only 的智能;开源权重模型已经追到一个程度,他甚至在某些垂直方向看到大模型反而退步。这是"开源权重能跑严肃 agentic loop"主张的第二轮,而且这次说话的是有名有姓的 harness 作者。
💡#18
@MrAhmadAwais
https://x.com/MrAhmadAwais/status/2051377695389589935
本周最深的 harness 工程长文。把 Kimi K2.6 和 DeepSeek V4 Pro 跑进 Claude Code 风格的 harness,让它们在内部 eval 上分别打到 5/10、6/10 接近 Opus 4.7 的水平。四处修改全没动模型:用 session id 软 pin 让 prefix cache 不被 load balancer 偷走(TTFT 6-8 秒掉到 1 秒以内);请求层一个 canonical model id;按 upstream 协商 capability flag;对一个把 R1 reasoning 剥离逻辑误用到 V4 上的 provider 关掉 thinking 模式。harness 不再扔掉模型 turn 之间的工作。auto-loop 能不能跑稳,就是看这种底层管道工程。
💡#19
@AINativeLang
https://x.com/AINativeLang/status/2051127789181382765
$870 总 AI 花费 vs 同样产出在传统 agent loop 上要花 $3000+。AINativeLang 把编排层编译化——模型负责推理,graph 负责执行,coordination cost 归零。7 周、138 篇、8 个生产任务、便宜 71%。这里有意思的不是"graph executor"这个具体方案,而是编排层一被编译化,loop 经济学就变了。协调税消失之后,跑 loop 不再是奢侈品。
💡#20
@gorkulus
https://x.com/gorkulus/status/2051225000607387715
Hermes 接进 indx(一个本地媒体管理器)做创意研究 loop。agent 通过 indx 的 CLI/API/skills/MCP 操作文件、加注释、跑实验、存 embedding,把一个媒体库变成实验室。ComfyUI 输出回到 indx 时带工作流元数据;indx 里打的 rating/tag 通过 webhook 流给 agent;embedding 驱动 586 段 found-sound(切成 10,192 个可搜片段)的潜空间探索。模式:本地文件底座 + agent 可操作接口 = 一个可复用的创意循环。
💡#21
@techedgedaily
https://x.com/techedgedaily/status/2051270840503963792
LangChain 把自己的编码 agent 从 benchmark 30 名开外干到前 5——一行模型代码没动,13.7 分提升全靠 scaffolding。论点很硬:模型在商品化,harness 在复利。每个 harness fix 都成了永久 fix,应用到每一次未来的运行、每一个未来的模型上。模型发布会重置赛场;harness 的投入永远不重置。Claude Code 泄露的 51.3 万行 TypeScript 几乎全是 harness,不是模型调用。
💡#22
@sanlsrni
https://x.com/sanlsrni/status/2051413280933949887
本周最好的 autoresearch 元思考:"autoresearch 有可读的 reward function;SDK/harness 没有,因为 harness 工程的痛点很大一部分在 catch edge case。"他提的核心 loop 形态是反过来的:一个外部 proposer 模型分析任务失败,在 sandbox 里改 harness,对推理轨迹泄漏做严格控制以避免过拟合。这是"把 autoresearch 用在 harness 设计本身"——还没人做出来,但下一个明显方向就是它。
💡#23
@warpdotdev via @sarahzorah
https://x.com/sarahzorah/status/2051391333349437636
Warp 跟 Anthropic Applied AI 团队的直播,演示 Warp 怎么在 Claude 上搭 self-improving agent。这里的信号是:"self-improving agent" 不到一个季度就从研究术语变成了厂商 demo 的品类。harness 厂商现在比的是各家出哪种 loop 原语——Skill Creator、Auto Memory、Ralph、Goal、Hermes 自改写。
💡#24
@0xSammy
https://x.com/0xSammy/status/2051366938631164253
Anthropic 联合创始人 Jack Clark:约 60% 概率,2028 年底之前出现真正递归自我改进的 AI 系统。两年的时间窗口。具体数字真假先放一边,重点是这个赌注现在被一个有内部信息的人公开发出来了,整个行业的规划话题被重置。这件事说清楚了一个事:今天的 autoresearch loop 就是 system 级递归自我改进的"露天彩排"。
💡#25
@Skoorbkaz
https://x.com/Skoorbkaz/status/2051319020633158054
self-improvement 里被忽视但很重要的一层——身份。RSI 不只是编码问题,是"在 self-improving 的到底是什么实体"这个问题。在他看来,Anthropic 是唯一一家认真处理 identity 部分的实验室。值得标记,因为公开讨论 autoresearch loop 几乎没人碰这个角度——所有人都在 benchmark 那个指标,没人讨论 agent 是谁。
📡 生态产品雷达
生态产品雷达

Claude Code——闭源模型上跑 autoresearch 和 agentic loop 的默认底座,特别是 /goal-style 模式和 Ralph Loop 跑起来的时候。

Hermes Agent (Nous Research)——这一波 self-improving 消费 agent 的霸主。自改写 skill 文件、USER.md、过夜跑 Mnemosyne 整理记忆、Telegram/Discord 24 小时在线。

Pi(Mario Zechner / @badlogicgames)——开源权重友好的 agentic loop harness。/goal 模式、/until-done、带退出策略的 Ralph loop。被点名说 Kimi 2.6 在它上面追平了 Claude 4.6-7。

Codex / GPT-5.5——配上 Goal mode 跑长达数小时的自主任务。这一波好几个 builder 把它换成主力日常驱动。

DeepSeek V4 Pro——成本曲线杀手。DeepClaude 把 Claude Code 的 loop 指向 DeepSeek,agent loop 便宜约 17 倍;cache 命中价格让 loop 原语几乎免费。

Karpathy autoresearch——现在是"agent 跑实验、改 config、重启、benchmark"这种模式的标准引用。出现在 vLLM 调参、DeFi 策略发现、代码优化里。

EvoSkill V1(Sentient)——开源的自我提升循环,从失败 trace 进化 skill 文件;在 Claude Code 驱动的 OfficeQA 和 SealQA 上有真实 benchmark 提升。

Gemini CLI Auto Memory——Google 第一次把"从过往 session 提取 skill"做成原生功能;Hermes 那套手动维护的事,Auto Memory 自动做了。

Warp + Claude——self-improving agent 现在已经是厂商 demo 品类;90 天内每家 harness 厂商的销售 deck 上都会有这一条。

agent harness(作为品类)——元产品。LangChain 证明了同一个模型不动,光改 harness 就能涨 13.7 分。下一个 18 个月谁先出能在 prefix cache、成本、自改写 skill 上都赢的开源 harness,谁就定义这个赛道。
← 上一篇
超级用户日报: 2026-05-06
下一篇 →
灵感雷达: 2026-05-06
← 返回所有文章

评论

加载中...
>_