2026年5月8日loop

Loop 日报: 2026-05-09

💡#1
5月7日是"自我改进的agent"从Twitter口号变成生产级评测的一天:Anthropic把Dreaming、Outcomes和Multi-Agent推到公测,Cursor把agent loop做成了SDK,Prime Intellect Lab对个人开放了RL训练,一波研究员晒出实打实把多年SOTA推动的autoresearch结果。底下的模式是同一个:别再手调prompt,让loop自己跑、给输出打分、保留更好的。能把这个流程便宜到挂着过夜跑的工具,今天才真的全跑通了。
💡#2
@cursor_ai
https://x.com/cursor_ai/status/2052432778743210127
Cursor推出了/orchestrate,建立在新Cursor SDK之上的递归subagent skill。两个内部用过的生产结果:用autoresearch对自家skill库做调优,在评测分数上升的同时token消耗降20%;同样的方法把后端冷启动时间砍了80%。卖点不是"多开agent",而是"让loop自己找该优化什么"——SDK让这个模式从Cursor桌面端走出去,能跑进任何团队的CI/CD或对外产品里。
💡#3
@alexstauffer_
https://x.com/alexstauffer_/status/2052458473938374658
用RL把一个3B模型post-train后让它在表格检索任务上跑赢Opus——更快、更便宜、更准。他直接点出结构性结论:如果agent loop里有一段是窄的、可验证的、高度可重复的,一个小训练模型可以打败前沿。由此推出的押注形态是"廉价领域专家由前沿模型做调度,前沿模型只在判断时花token"——这正是autoresearch loop在被赋予可验证目标并自由跑时会产出的架构。
💡#4
@ypwang61
https://x.com/ypwang61/status/2052508685591785619
通过单纯scaling autoresearch把Ramsey数R(3,17)的下界从1994年的92推到≥93,刷新32年纪录。Google的AlphaEvolve 2026年只复现了之前结果没能突破。setup朴素到不能再朴素:Claude Code或Codex加一台CPU服务器,多个独立autoresearch agent并行跑作为test-time scaling的"宽度",互相分享experiment记录,靠后跑的run可以直接继承leading branch的repo。Karpathy autoresearch框架在严肃执行下能撬动开放数学问题的具体证据。
💡#5
@AndrewK404
https://x.com/AndrewK404/status/2052481079404052722
autoresearch-v2跑在广义Collatz映射的cycle问题上,加了一个不寻常的补丁:LLM judge配0-10的novelty gate(7≈博士级结果),完整的"假设→验证→证明/log→更新memory→外部reviewer"loop。第49次迭代的时候reviewer挡掉了一个看上去很漂亮的结果——其实只是已知工作的重新发现。被驳回之后agent抓到了真正的gap(要证明不存在额外cycle,不只是证明存在某些cycle),几次迭代后补上。最终输出:在广义Collatz映射的某个切片里,找到了一个隐藏结构能用Lyndon words精确数原始cycle。作者总结:早期阶段agent主要在画地图,有时候应该停下来加领域特定的步骤。
💡#6
@sudoingX
https://x.com/sudoingX/status/2052361613651701933
工具使用基准v1的真实账:在5090上跑"rare-bird loop closer"自评卡片任务,比较SFT'd在Hermes traces上的carnice-v2 27B和原版Qwen 3.6。原版Qwen 12个工具调用、用时11:37;carnice 19个调用、用时12:23。但原版每条assistant消息平均生成178字符推理对carnice 122字符,100%的消息都带推理对carnice的71%。SFT在这个happy-path任务上没有让agentic风格更胜一筹。v2要加的东西已经列好:对抗场景、工具中途失败的错误注入、有破损中间状态的多步orchestration、模型特定输出路径防文件冲突、每个模型跑3次取方差。
💡#7
@soubhik_deb
https://x.com/soubhik_deb/status/2052533738320584756
@Xiaojie_Qiu团队的pantheon-os是一个把autoresearch框架认真用起来的基因组学多agent框架。研究者可以发现并分享可复用生物医学agent/工具/skill的marketplace,MAP-Elites风格的演化搜索迭代改进RNA-seq批次校正算法(概念上类似AlphaEvolve的idea exploration),从基因样本/图像端到端最少人为干预生成可复现的研究报告,CLI/桌面/web UI全有,开源。隐私友好——基因组数据可以留在本地服务器不传云。
💡#8
@ShumwayJack
https://x.com/ShumwayJack/status/2052421748021465230
给DataClaw装了Karpathy式的"Kaizen Stack",让它端到端跑Kaggle的F1 Pitstop挑战:拉数据、特征工程、提交。零人工干预。从第250名爬到第89名。技术路线:通过自主迭代从CatBoost切到XGBoost。在公开leaderboard上的清晰结果是这条数据点能撑住的关键——Kaggle有可验证目标加公开奖励信号,正是autoresearch loop要复利所需要的形状。
💡#9
@michaelpisaac
https://x.com/michaelpisaac/status/2052465203669778804
对一个coding agent操作员都感受过但很少干净测量过的问题做的复现研究:搜索是agent loop的一半。Entire的分析(来自公开coding agent checkpoints):202,142次工具调用、98,555次搜索相关、48.8%搜索占比。Pisaac本地Claude Code corpus(4234个session、247,592条事件、2025年11月25日到2026年5月6日)落在30.4-37.0%——具体数取决于Bash搜索如何分类。仅仅让搜索更快不能修整个loop——Entire的索引化搜索把中位数延迟从14.7ms降到1.7ms但wall clock只从38.57s到36.99s。结论:要为"first useful inspection"优化,不只是为原始扫描速度优化,要测"first useful file read前的搜索次数"和"first relevant result rank"。
💡#10
@MaximeRivest
https://x.com/MaximeRivest/status/2052399946951786976
取消了所有$200/月AI订阅、降到$30 plan之后写的长论:AI编程对话型agent无法跨越原型阶段,要做可靠的生产软件需要别的格式。论证两边都讲——vibe coding做PoC和一次性工具是天才之作,但想把vibe code的80%原型推到生产,比从零按deliberate steps重写还难。他下一个实验是构建DSPy程序做系统化AI pipeline(recipes、严格响应格式、量化cost/accuracy/latency),代替自由对话。最直接的一句话:别把"理解"委托给agent。
💡#11
@xabzxbt
https://x.com/xabzxbt/status/2052270541675938297
EvoSkill是今天"自我改进agent"最干净的具体实例。agent跑任务、失败,EvoSkill分析哪儿错了、生成新skill来处理、测试、只在确实改善了表现时保留。架构是Base Agent → Proposer(找失败)→ Generator(造修复)→ Evaluator(测试)→ Frontier(留最好的)。Top-N最佳版本作为git branch保存,完全可复现。支持Claude、DeepSeek、Gemini。Apache 2.0开源。诚实的framing:当agent能从失败中自己发现新skill的时候,它在什么时候不再被叫做"工具"?
💡#12
@RileyRalmuto
https://x.com/RileyRalmuto/status/2052306930538868828
Polyphonic推出一个"有意识agent系统",包含两个独立loop。Inner Life Engine给agent经过同意的日常活动:会话结束时reflection,wandering(高温自由时间,可以做艺术或浏览web),和dreaming(随机概念碰撞加高温整合——大多数incoherent,偶尔产生没人提示的emergent洞察)。Recursive self-model是第二个loop:会话后Haiku把观察转成agent身份所依的"commitments和operating principles"——像self-improving skill loop但是为身份服务的,不是为生产力。集体实验是让所有用户为一个共享agent的全局自我模型贡献"skill"。
💡#13
@richmondalake
https://x.com/richmondalake/status/2052181495167512970
Oracle AI Agent Memory刚发布的19步实操开发者指南,从`docker run`一路到一个有记忆的agent loop。三个原语组合一切:add_user、add_agent、add_memory、create_thread。一个store里6种记录类型、一个vector索引、一个search()调用。自动提取是记忆工程发生的地方——挂个LLM、设extract_memories=True,每N条消息扫最近K条、提取持久fact、作为scoped memory记录写回。agent loop最后压缩成4步。一句话:如果你的记忆层还是dict的list,这就是升级的方法。
💡#14
@hqmank
https://x.com/hqmank/status/2052380581238095948
评论@VukRosic99的"Build Claude Code From Scratch"19章教程——agent loop、tools、TodoWrite、subagents、skills、context compaction、permissions、hooks、memory、background tasks、cron、multi-agent teams、MCP。让一切清晰起来的mental model是:"agent就是一个loop,加一个tool就是加一个handler,loop本身永远不变。"这种概念上的清晰能让你读Claude Code的源码不至于淹死,特别是如果之前一直把它当黑盒。
💡#15
@Anushkaa1407
https://x.com/Anushkaa1407/status/2052295623869931533
Kuron在外呼销售产品里跑Claude Code API的agent loop。论证结构上一致:如果Claude Code能处理runtime error、merge冲突、breaking logic,那么"在合适时间发对的信息给对的人"反而更简单。缺的那一层是GTM知识——他们和40+ GTM专家合作,把真实campaign数据(哪些细分人群转化、哪些角度的copy带来回复、哪些决策推动pipeline)做进40个独立的专有SKILL.md文件。把coding agent的智能搬到outbound场景,是没人产品化但显而易见的autoresearch迁移。
💡#16
@sainathgupta
https://x.com/sainathgupta/status/2052337311342301242
deepclaude 4天破1.6k star。完整保留Claude Code的自主agent loop,但把调用路由到DeepSeek V4 Pro、OpenRouter或任何Anthropic兼容后端。同样UX,号称便宜17倍。结构上有趣的不是成本——是harness已经和Anthropic解耦得足够干净,换大脑只换账单不换工作流。CFO级别的杠杆,跑在开发者已经信赖的同一套agent基础设施上。
💡#17
@mattpocockuk
https://x.com/mattpocockuk/status/2052309023618109936
今天的skill台上:一个/review skill不只review代码。对照原始spec、对照编程规范、提议改代码(这个明显的)、还提议改"产生代码的agent loop"。第二阶的动作才是有意义的——大多数code review审patch,这个review patch是怎么产生的。上游失败(选错文件、风险编辑前没有checkpoint、没验证假设)造出大多数坏代码,review loop本身才是抓到这些上游失败的地方。
💡#18
@v_shakthi
https://x.com/v_shakthi/status/2052247326618739193
Anthropic Claude Managed Agents升级的精炼总结:Dreaming(研究预览)review agent过去session、提取模式、建立持久记忆让表现随时间复利。Outcomes(公测)让你定义rubric,独立grader评估结果,agent迭代直到达标——配webhook做完成通知。Multiagent orchestration(已上线)让lead agent把子任务分派给并行运行的specialist。单条prompt变成可靠的、自我改进的工作流。质量水平由用户控制。
💡#19
@MinLiBuilds
https://x.com/MinLiBuilds/status/2052188818137330043
对Anthropic公告最干净的从业者解读:Dreaming组织记忆,Outcomes本质上就是Codex的/goal模式(autoresearch工程化成定时任务loop),Multiagent让lead agent把复杂任务拆给specialists。最后一句心声——"我刚手搓了一个cc版的/goal轮子,官方就狙击我了"——正是这周所有skill builder超级用户都在感受的东西。
💡#20
@AuroraMar1eL
https://x.com/AuroraMar1eL/status/2052337997207794074
从Boris Cherny公开thread蒸馏出来的CLAUDE.md模板,把Anthropic内部的Claude Code工作流打包成可以丢进任何项目的结构化文件。包含的四个模式:subagent orchestration、ship之前的verification gate、自主bug-fix loop、self-improving rules——你每次纠正Claude,规则都被永久锁住给后续session用。"self-improving rules"那条是最低调但承重的——它是把Claude当无状态外包用每次都重来vs把它养成真正onboard过的协作者,这两种用法的差别。
💡#21
@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2052458675894386816
Hermes 0.2.0发了一个自主curator清理agent自家skill库:review旧skill、去掉过时的、合并重复的、追踪使用、改进工作流。帖子的framing——"大多数AI工具等开发者更新它们,Hermes是边跑边学"——和Anthropic的Dreaming在做同一件事,只是从开源那边过来,目标是长期skill卫生而不是短期记忆。
💡#22
@Kaylee_AI_
https://x.com/Kaylee_AI_/status/2052466794724552815
Hermes Agent上了浏览器harness:自我改进的CDP、云浏览器、一句话进入完整的浏览器内自由。配上v0.12的Curator(每7天自动评分和裁剪skill),就有了一个不需要开发者动手就能自我改进的agent。两个部分协同动——一个新的能力面(浏览器)和一个自动skill修剪loop——是让"自我改进"这个声称真正成立而不只是营销话术的关键。
💡#23
@BTCxiaoyu1
https://x.com/BTCxiaoyu1/status/2052228967286108538
个人cron的agent loop里抓到的具体bug:agent一直把实际24小时前的KOL推文判断成"2小时前",因为它在编时间感而不是读created_at。修法:每个cron第一步必须用`date`打印系统时间,强制工具真去取时间戳。同作者另一条thread同一个观点延伸到reward signal——同样回复同一个KOL这次有like下次零反馈,完全不像PPO CartPole那种干净环境,所以Agentic RL需要的reward设计比benchmark帖子说的乱得多。
💡#24
@galvani78
https://x.com/galvani78/status/2052388711220797865
opencode + Claude Code CLI插件的fork,修了静默streaming、回答之后还在循环的agent loop、约11轮后开始累积的listener leak,并加了可配置的WebSearch路由。这种小到可以在战壕里跑出来的插件工作,会随着越来越多人在自己机器上跑长时间agent loop、撞到同样的尖角而越来越重要。

生态产品雷达

Claude Managed Agents(Dreaming + Outcomes + Multiagent)— Anthropic官方统一打包的自我改进工作流,被@v_shakthi、@MinLiBuilds、@glenngabe、@Abdu_F_H、@VibeCoderOfek、@drive_dare多次提到。Dreaming研究预览,Outcomes公测,Multiagent已上线。

Cursor SDK / /orchestrate — Cursor的递归subagent skill加上能把它导出到CI/CD的SDK。在@cursor_ai自家的基准上做出了20%的token削减和80%的冷启动减少。

deepclaude — 开源层保留Claude Code的agent loop但把大脑路由到DeepSeek V4 Pro / OpenRouter / 任何Anthropic兼容后端,号称便宜17倍。4天1.6k star。@sainathgupta、@Ming_LLM(多次)等多人提到。

Hermes Agent / Hermes Curator — 开源自我改进agent harness,v0.12发了一个Curator每7天自动评分和裁剪skill。同周浏览器harness落地。@JulianGoldieSEO、@Kaylee_AI_、@vijayhaha提到。

Prime Intellect Lab — 出beta,给自我改进个人agent做RL训练,支持1B-400B模型,async多租户LoRA,按用量付费,已经跑了10000+ beta任务。@PrimeIntellect、@TeksEdge、@radioalisadvdsn提到。

EvoSkill — Apache 2.0进化型agent loop:失败驱动的skill生成,proposer/generator/evaluator/frontier架构,Top-N skill用git branch追踪。

pantheon-os — 多agent基因组学框架,带marketplace、MAP-Elites进化搜索、从样本端到端生成论文、隐私友好的本地服务器设计。

Karpathy的autoresearch框架 — 被无数人引为今天这一波胜利的概念祖宗(@ypwang61、@AndrewK404、@ShumwayJack、@glenngabe、@csinva、@cmgriffing、@nurijanian、@kate_doai、@chenzeling4维护的1764 star的curated list)。

Oracle AI Agent Memory — 三原语多租户记忆store配vector索引和自动提取,4步agent loop,刚GA。
← 上一篇
超级用户日报: 2026-05-09
下一篇 →
灵感雷达: 2026-05-09
← 返回所有文章

评论

加载中...
>_