2026年5月5日loop

Loop 日报: 2026-05-06

今天 loop 圈最锋利的信号是这个：autoresearch 不再只是口号，而是可以稳定复现的工作流。今天有三个不同方向的 builder 发了同样形态的东西：写一个 benchmark、写一个 agent loop、定义一个 reward function，然后走开，回来看到一段稳定 codebase 上可量化的提升。Karpathy 那个 autoresearch 原语，今天分别被用在 Solana DeFi 策略发现、vLLM 内核参数调优、代码重构优化和诉讼证据检索上。今天另外一半流量是 Anthropic 联合创始人 Jack Clark 给到 60% 概率（2028 年底前）的那个元问题：当 agent 开始改写下一个 agent 的时候，到底是什么实体在 self-improving？下面是用户真正搭起来跑通的东西。

💡#1

@aijoey
https://x.com/aijoey/status/2051243477606801900
今天最干净的"过夜跑 autoresearch"案例。这位用户把 Claude Code 指向 DGX Spark 上 Qwen3.6-35B-A3B 的 vLLM 自动调参，给了一个 benchmark 脚本，撂下一句"loop forever"。第七轮：composite score +18%。最关键的发现反直觉——把 NUM_SPECULATIVE_TOKENS 从 15 降到 1，因为 Spark 的 SM_121 在 FP4 fallback 到 Marlin FP8 的情况下，drafter 的算力反而是浪费。每一轮：agent 改 config、commit、重启 container、跑 benchmark、留或撤，约 7 分钟一周期。单流吞吐从 19.9 升到 29.7 tok/s，并发 16 从 74.9 升到 201.3 tok/s。

💡#2

@CoralOS_ai
https://x.com/CoralOS_ai/status/2051315917162975589
autoresearch loop 真正用到 DeFi 上的一个例子：CoralOS 上的 discovery agent 拿历史池子数据跑实验，写出一个针对波动率捕捉这个指标优化过的策略函数。重点不是 demo——而是 autoresearch loop 这个模式现在能横向扩展到任何"有可量化收益+策略代码可改"的领域。一旦稳定下来，这个 agent 会被换进他们 LP app 里，替掉原来那个 vanilla 策略 agent。

💡#3

@dair_ai
https://x.com/dair_ai/status/2051311905353142328
Meta FAIR 出了一篇硬论文 Autodata——一个自动构建高质量训练和评测数据的 agentic data scientist。结果直接：在 CS research QA 任务上，Agentic Self-Instruct loop 让弱模型和强模型差出 34 个点（43.7% vs 77.8%），而标准的 CoT Self-Instruct 在同样 setup 下只差 1.9 点。这个 agent 生成的题目能真正区分模型能力。整套系统还会自我元优化——一个外层循环根据"哪些 harness 改动让验证集通过率提升"来调 agent 自己的指令。126 次接受迭代之后，验证集通过率从 12.8% 涨到 42.4%。

💡#4

@aakashgupta
https://x.com/aakashgupta/status/2051330692567777777
一个真在生产环境跑的 PRD 自审 agent。它拿到 PRD，跑这位 PM 的真实 checklist（紧迫性、跟 ChatGPT wrapper 的差异化、AI 失败模式、归因风险），把评论写进文档。复利的部分是第二个 agent，每 30 分钟读一次人类对 AI 评论的修改，把这些写进 learner.md。同一个修改连续五天出现，它就发邮件提议升级 checklist。批准一次，下次 review 永久变好。多数 reviewer 是冻结的；这个会复利，没人手动改 prompt。

💡#5

@aakashgupta
https://x.com/aakashgupta/status/2051346262889554035
Hermes 是第一个真正闭合"流程反馈循环"的 agent loop。每 15 次 tool call 之后，它会读一次本次 session 哪些做对了，把本地 skill 文件改写一次。这位 PM 的竞品简报：第一周 20 分钟，第六周 8 分钟，没改过 skill 文件一行——agent 自己改了四次。这帮你想明白一件事：你拥有的所有其他 AI 工具都冻结在你最初配置它的那个版本。Custom GPT、Claude Project，session 里跑的东西它们一点都不继承。模型是租的，skill 文件是你自己的。

💡#6

@JackWoth98
https://x.com/JackWoth98/status/2051378691876237550
Gemini CLI 现在能扫过往 session，自动建议新的 agent skill——基于你最近反复在做的事。在 /settings 里打开 Auto Memory 就能用。这是把"self-improving"那一步原生化了——不再是第三方插件，是 harness 厂商自己出"流程提取"步骤。Anthropic Skill Creator、Gemini Auto Memory、Hermes 自改写 skill 文件——三家全面开打。

💡#7

@cgc1010
https://x.com/cgc1010/status/2051278186533528035
真实跑了一个月的 self-improving agent 案例。Hermes 的 USER.md（agent 对你的画像文件）已经塞到 80% 容量，安全规则、项目规则、"多用 emoji"全挤在一块。这位用户做了分层清理：USER.md 只留人格和交互风格，安全规则挪到 CORE MEMORY，系统规则到 POLICY，项目知识到 LLM Wiki。结果：内存占用 80% 降到 43%，回复变得更锋利、优先级清楚了。值得一读，因为它真实展示了跑一个月 self-improving agent 是什么手感——维护本身就是工作。

💡#8

@samuel_ferrero
https://x.com/samuel_ferrero/status/2051340585072574867
今天最干脆的一句"新 autoresearch 工作流"定义（西班牙语）："配置好 agent 然后睡 8 小时。醒来 100 个实验全跑完，每个都有 log，模型已经比你关电脑的时候更好。agent 还把每一步改动的推理过程都给你写好了。"这就是"机器在你睡觉时干活"的真正样子——而且跑这个的人已经不只是实验室研究员了。

💡#9

@danielblignaut
https://x.com/danielblignaut/status/2051401166429343790
基于 OpenAI Agent SDK 2.0 + Karpathy auto-research 的思路，搭了一个 harness。你 clone 一个 git 仓库，给一个 hypothesis 或目标，定义一个 reward function（量化+定性指标都有），让 Codex 自己迭代直到达到目标或者超过最大失败次数。冒出来的模式是：reward function + sandbox + 重启循环 = 任何代码形态问题的通用 optimizer。

💡#10

@srinitude
https://x.com/srinitude/status/2051384361023398095
他给 Pi 写了第一个扩展 pi-until-done，发到 npm。/until-done <intent> 把 Pi 自己变成 Ralph loop 里的 judge——架构有意思的点：每一轮 agent 结束之后把用户的 prompt 重新注入，直到 agent 自己用一个 tool call 说"我搞完了"。终止条件是 agent 自我宣告完成，不是 token 预算耗尽。

💡#11

@relizarov
https://x.com/relizarov/status/2051200915621794225
真实生产环境的 autoresearch loop 优化：CaseDash 的重绘时间从 20ms 压到 2ms，可执行文件从 2Mb+ 砍到 1Mb 以下，全靠 auto-research 风格的循环。用户负责设目标，并约束 AI agent 不偏离。这是 autoresearch 用在它最自然的领域——指标明确、留改撤决策可以自动化的代码优化。

💡#12

@miroburn
https://x.com/miroburn/status/2051394995655971218
Codex 的 Goal 模式和 Claude Code 的 Ralph Loop，都在跑长任务：调 Lab Club 的匹配算法到 85%+ 接受率，预计要跑好几天。他还观察到 Goal/Ralph Loop 在抓 bug 上很猛，因为 agent 钻得比任何人类审计都深。他点出了一个新难题：跨多个生产业务系统并行优化是真的难。"agent 说我在调你先暂停 Meta 广告"——可你一暂停数据就断。几百个 agent 24/7 跑起来之后，人变成了交通管制员。

💡#13

@MAXIMISEART
https://x.com/MAXIMISEART/status/2051404362501484859
一个产品级的多 agent 编排模式：Ralph 跑在 idea → research → prototype → PRD → Kanban 流水线的最后一步。它扫 GitHub 上带 `ready-for-agent` label 的 issue，开 1-4 个 subagent 在并行的 git worktree 里跑，每个用 red-green-refactor 的 Ralph loop。顺序由 Kanban 图强制约束。这是"AFK 执行"模式产品化之后的样子——issue tracker 变成了任务队列。

💡#14

@PreyWebthree
https://x.com/PreyWebthree/status/2051372081112289501
Sentient 出了 EvoSkill V1，开源工具：给一个 benchmark 加一个编码 agent，几分钟内把它演化成专家。在 Anthropic Claude Code 上的报告数据：OfficeQA 60.6% → 68.1%，SealQA 26.6% → 38.7%。在 SealQA 上演化出来的 skill 零样本迁移到 BrowseComp 上还有额外提升。模式是：跑 benchmark → 分析失败 → 从失败 trace 生成新的 prompt 和 skill → 测试迭代 → 收敛。EvoSkill 比 GEPA 进了一步——它会从零搭新 skill，不只是改老的。

💡#15

@kamathhrishi
https://x.com/kamathhrishi/status/2051127491365122085
极简主义的反面案例。这位用户把自己 GitHub 上 star 最多的项目（用 RAG 跑公开市场文件）删掉了 5 万行代码、整个 vector DB、几百万个 embedding。结果发现：把文档放一个目录里，给 agent grep 和 ls 工具就够了。两个原因：小的便宜模型现在驱动 terminal 也很稳了；连小模型都看得懂 SEC filing 的结构。"agent harness + 普通文件系统"在检索这件事上赢得了简洁性之战。

💡#16

@PaulinaStern_ via @SentientEco
https://x.com/SentientEco/status/2051285718664986879
另一种"self-improving"的形态：完全跳过多 agent 复杂度。搭一个单 agent 的自我提升循环，生成一个高度结构化的 prompt，定义 LLM 该怎么行为——单 agent 上达到 frontier lab 的精度，同时保持成本低。这是一条反主流的线：loop 不一定要多 agent 才能 self-improve。

💡#17

@hsu_steve
https://x.com/hsu_steve/status/2051282979297632635
Pi agent harness 的作者 Mario Zechner 接受采访的信号：Kimi 2.6 在编码和 agentic 流程上"已经几乎追上 Claude 4.6-7"。在他的工作流里他不再需要 frontier-only 的智能；开源权重模型已经追到一个程度，他甚至在某些垂直方向看到大模型反而退步。这是"开源权重能跑严肃 agentic loop"主张的第二轮，而且这次说话的是有名有姓的 harness 作者。

💡#18

@MrAhmadAwais
https://x.com/MrAhmadAwais/status/2051377695389589935
本周最深的 harness 工程长文。把 Kimi K2.6 和 DeepSeek V4 Pro 跑进 Claude Code 风格的 harness，让它们在内部 eval 上分别打到 5/10、6/10 接近 Opus 4.7 的水平。四处修改全没动模型：用 session id 软 pin 让 prefix cache 不被 load balancer 偷走（TTFT 6-8 秒掉到 1 秒以内）；请求层一个 canonical model id；按 upstream 协商 capability flag；对一个把 R1 reasoning 剥离逻辑误用到 V4 上的 provider 关掉 thinking 模式。harness 不再扔掉模型 turn 之间的工作。auto-loop 能不能跑稳，就是看这种底层管道工程。

💡#19

@AINativeLang
https://x.com/AINativeLang/status/2051127789181382765
$870 总 AI 花费 vs 同样产出在传统 agent loop 上要花 $3000+。AINativeLang 把编排层编译化——模型负责推理，graph 负责执行，coordination cost 归零。7 周、138 篇、8 个生产任务、便宜 71%。这里有意思的不是"graph executor"这个具体方案，而是编排层一被编译化，loop 经济学就变了。协调税消失之后，跑 loop 不再是奢侈品。

💡#20

@gorkulus
https://x.com/gorkulus/status/2051225000607387715
Hermes 接进 indx（一个本地媒体管理器）做创意研究 loop。agent 通过 indx 的 CLI/API/skills/MCP 操作文件、加注释、跑实验、存 embedding，把一个媒体库变成实验室。ComfyUI 输出回到 indx 时带工作流元数据；indx 里打的 rating/tag 通过 webhook 流给 agent；embedding 驱动 586 段 found-sound（切成 10,192 个可搜片段）的潜空间探索。模式：本地文件底座 + agent 可操作接口 = 一个可复用的创意循环。

💡#21

@techedgedaily
https://x.com/techedgedaily/status/2051270840503963792
LangChain 把自己的编码 agent 从 benchmark 30 名开外干到前 5——一行模型代码没动，13.7 分提升全靠 scaffolding。论点很硬：模型在商品化，harness 在复利。每个 harness fix 都成了永久 fix，应用到每一次未来的运行、每一个未来的模型上。模型发布会重置赛场；harness 的投入永远不重置。Claude Code 泄露的 51.3 万行 TypeScript 几乎全是 harness，不是模型调用。

💡#22

@sanlsrni
https://x.com/sanlsrni/status/2051413280933949887
本周最好的 autoresearch 元思考："autoresearch 有可读的 reward function；SDK/harness 没有，因为 harness 工程的痛点很大一部分在 catch edge case。"他提的核心 loop 形态是反过来的：一个外部 proposer 模型分析任务失败，在 sandbox 里改 harness，对推理轨迹泄漏做严格控制以避免过拟合。这是"把 autoresearch 用在 harness 设计本身"——还没人做出来，但下一个明显方向就是它。

💡#23

@warpdotdev via @sarahzorah
https://x.com/sarahzorah/status/2051391333349437636
Warp 跟 Anthropic Applied AI 团队的直播，演示 Warp 怎么在 Claude 上搭 self-improving agent。这里的信号是："self-improving agent" 不到一个季度就从研究术语变成了厂商 demo 的品类。harness 厂商现在比的是各家出哪种 loop 原语——Skill Creator、Auto Memory、Ralph、Goal、Hermes 自改写。

💡#24

@0xSammy
https://x.com/0xSammy/status/2051366938631164253
Anthropic 联合创始人 Jack Clark：约 60% 概率，2028 年底之前出现真正递归自我改进的 AI 系统。两年的时间窗口。具体数字真假先放一边，重点是这个赌注现在被一个有内部信息的人公开发出来了，整个行业的规划话题被重置。这件事说清楚了一个事：今天的 autoresearch loop 就是 system 级递归自我改进的"露天彩排"。

💡#25

@Skoorbkaz
https://x.com/Skoorbkaz/status/2051319020633158054
self-improvement 里被忽视但很重要的一层——身份。RSI 不只是编码问题，是"在 self-improving 的到底是什么实体"这个问题。在他看来，Anthropic 是唯一一家认真处理 identity 部分的实验室。值得标记，因为公开讨论 autoresearch loop 几乎没人碰这个角度——所有人都在 benchmark 那个指标，没人讨论 agent 是谁。

📡 生态产品雷达

生态产品雷达

Claude Code——闭源模型上跑 autoresearch 和 agentic loop 的默认底座，特别是 /goal-style 模式和 Ralph Loop 跑起来的时候。

Hermes Agent (Nous Research)——这一波 self-improving 消费 agent 的霸主。自改写 skill 文件、USER.md、过夜跑 Mnemosyne 整理记忆、Telegram/Discord 24 小时在线。

Pi（Mario Zechner / @badlogicgames）——开源权重友好的 agentic loop harness。/goal 模式、/until-done、带退出策略的 Ralph loop。被点名说 Kimi 2.6 在它上面追平了 Claude 4.6-7。

Codex / GPT-5.5——配上 Goal mode 跑长达数小时的自主任务。这一波好几个 builder 把它换成主力日常驱动。

DeepSeek V4 Pro——成本曲线杀手。DeepClaude 把 Claude Code 的 loop 指向 DeepSeek，agent loop 便宜约 17 倍；cache 命中价格让 loop 原语几乎免费。

Karpathy autoresearch——现在是"agent 跑实验、改 config、重启、benchmark"这种模式的标准引用。出现在 vLLM 调参、DeFi 策略发现、代码优化里。

EvoSkill V1（Sentient）——开源的自我提升循环，从失败 trace 进化 skill 文件；在 Claude Code 驱动的 OfficeQA 和 SealQA 上有真实 benchmark 提升。

Gemini CLI Auto Memory——Google 第一次把"从过往 session 提取 skill"做成原生功能；Hermes 那套手动维护的事，Auto Memory 自动做了。

Warp + Claude——self-improving agent 现在已经是厂商 demo 品类；90 天内每家 harness 厂商的销售 deck 上都会有这一条。

agent harness（作为品类）——元产品。LangChain 证明了同一个模型不动，光改 harness 就能涨 13.7 分。下一个 18 个月谁先出能在 prefix cache、成本、自改写 skill 上都赢的开源 harness，谁就定义这个赛道。

← 上一篇

超级用户日报: 2026-05-06

灵感雷达: 2026-05-06

← 返回所有文章

加载中...

Loop 日报: 2026-05-06

更多文章

评论