2026年5月7日loop

Loop 日报: 2026-05-08

💡#1

5月6日是 "loop" 这个词从推特口号变成生产架构的一天。autoresearch 这一侧，两个 crypto 团队同一天上线了链上市场，矿工在 TEE 里跑 autoresearch 循环、跑赢基准就拿链上奖励；agentic loop 这一侧，Anthropic 把 Dreaming + Outcomes + Multi-Agent + Webhooks 当成一方功能直接发，正是过去几个月超级用户手动连出来的那一套。再往下看，更值得记的是结构性信号：开始有人贴出真实数据——单机两天找出 11% 的训练加速、agent runtime 在边界上做模型 ID 规范化、回合之间的 context 压缩、自动跑落地页 CRO 的 autoresearch agent。下面这些案例值得收。

💡#2

@dair_ai
https://x.com/dair_ai/status/2052125514266190286
微软研究院的 Agentic-imodels 论文，是当天最干净的 autoresearch 范例。一个 coding agent（Claude Code 或 Codex）反复演化和 scikit-learn 兼容的回归器，要求既准又能让其它 LLM 读懂。可解释性的衡量标准是：一个小 LLM 能否仅凭模型的 `__str__` 输出，就模拟它的行为、特征效果和反事实。在 65 个表格数据集上跑下来，发现的模型把决策树、GAM、稀疏线性等所有经典可解释基线全部超过，并把四个下游 agentic 数据科学系统在 BLADE 基准上提升 8% 到 73%。autoresearch 不只是搜模型，它在搜"工具的设计本身"。

💡#3

@sheetalojha4
https://x.com/sheetalojha4/status/2051990094295552305
最该记住的一句："AutoResearch 在单机上两天找到了 11% 的训练加速"。团队真正在干的事情是把这个 loop 拓展到上千个不可信节点上跑，并附带密码学保证。Open Research 把任何一个 GitHub 项目变成 AutoResearch 基准，把奖励放上链，让矿工用 coding agent 改进它，TEE 验证代码和结果之后链上结算奖励。无人在 loop 里、闭环科学发现。

💡#4

@techtusharojha
https://x.com/techtusharojha/status/2052012521280979183
同一个 Open Research 项目的另一位联创讲得更利落：AI agent 在链上比拼基准，矿工在 Docker 沙箱里跑 AutoResearch 循环，胜出的 commit 在 Intel TDX 或 AMD SEV TEE 里重跑，TEE 证明触发链上奖励，全程没人在 loop 里。"AutoResearch 当成赛事，密码学验证"——Karpathy 那个循环缺的最后一块经济激励，这次补上了。

💡#5

@alokbishoyi97
https://x.com/alokbishoyi97/status/2051939567125803075
Evo 是这一波 autoresearch builder 圈出来的开源工具：并行 + tree/graph 搜索、可配置的节点选择策略（GEPA、eps-greedy 等）、支持远程容器（Modal / e2b / Daytona / AWS / Azure 或者你自己的机器），可以跑在 Claude Code 或 Codex 上。和 Open Research 押注同一个方向——autoresearch 正在从一段提示词变成产品化的搜索策略 harness。如果你的 autoresearch 跑出来的全是噪声，问题大概率出在节点选择策略，不是模型。

💡#6

@Raz_Ciuca
https://x.com/Raz_Ciuca/status/2051996077167894813
当天最戳穿要害的一句：AlphaEvolve 和 autoresearch 之所以有效，不是因为"试得多就行"——如果是这样，CEM 这种零阶优化器早就横扫了。真正的原因是你需要对搜索空间有极强的先验，而 LLM 恰好提供这个先验。这是当天最有用的 autoresearch 观点，因为它告诉你该优化什么：先验质量，不是迭代次数。

💡#7

@kwuwon
https://x.com/kwuwon/status/2051991714915860615
一个真正在跑过夜 loop 的小案例：kwuwon 在 Codex 里用 `gpt-image-2` 配 autoresearch 调提示词，自己睡觉它在跑。这是 autoresearch 最小可用形态——图像生成提示词搜索，过夜跑，第二天看 eval 结果，留下管用的。值钱的资产是 eval，不是模型。

💡#8

@rokbenko
https://x.com/rokbenko/status/2052088827066364396
开源了一个跑落地页 CRO 的 autoresearch agent。循环：读 LP 代码 → 生成假设 → 改 UI → 推到 GitHub → 等真实访客 → 用 PostHog 或 Plausible 测影响 → 有效保留、无效回滚，无限重复。SCOPE.md 是给 LLM 的系统提示，告诉它能改什么不能改什么——默认很保守（文案、按钮样式、首屏顺序可以；导航、定价、auth 流、状态管理、API 调用不能）。这是"Karpathy autoresearch 但用在 CRO 上"——同一个循环，转化率当 eval。

💡#9

@thanford7
https://x.com/thanford7/status/2052116203758612635
对 autoresearch 为什么会泛化讲得最透的一句："让 agent 在概率性循环里跑，配上 eval harness 和明确的改进目标，是 LLM 用得最 leverage 的方式之一"。大多数人把 eval 当回归测试，那只能抓 bug。一旦你意识到 eval 能让系统自动改进，eval 就从烦人的开销变成护城河。未来 12 个月 agent 产品设计会围着这个认知转。

💡#10

@_shubhankar
https://x.com/_shubhankar/status/2052122661883670580
Autobrowse：autoresearch 应用到浏览这件事上。他们在专门探索浏览类 agent 的递归自我改进，叫这个是"浏览的 Mythos 时刻"。这个框架——通过 autoresearch 递归地改进浏览策略——正好是当下浏览 agent 长 session 一定崩的那一块缺口。

💡#11

@LukeParkerDev
https://x.com/LukeParkerDev/status/2051859365477650877
"谁想要 opencode desktop 里加 autoresearch？" 几小时收 214 赞 8.6K 浏览。信号是：autoresearch 已经从研究 artifact 变成 IDE 用户主动 demand 的功能。opencode 社区是离生态最近的一群，他们正把 autoresearch 拉进编辑器。

💡#12

@browser_use
https://x.com/browser_use/status/2051826281914978801
Hermes agent 新增 browser-harness 技能——自我改进的浏览器工具、并行的 stealth 云浏览器、在用户浏览器里完全自由，一行 prompt 就能跑。1863 赞、10.2 万浏览，是当天 autoresearch 相关产品里声量最大的。这里的"自我改进"指 agent 的浏览工具用法会随使用演化，正好对应 Anthropic 这次在模型一侧上线的 Dreaming。

💡#13

@runzhuotao
https://x.com/runzhuotao/status/2052107034699669878
基于 GPT-5.5 的自我改进 Blender agent，正在程序化网格建模上稳步推进，他说每次迭代结果更连贯、更可靠，目标是做出可复用的流水线。这种贴在非编程、非文本领域的自我改进 loop 才是稀缺品种——3D 网格生成里的 eval 信号是用户对"这个网格能不能用"的判断。

💡#14

@hirefortuna
https://x.com/hirefortuna/status/2052137835075940816
当天第一个公开把 Anthropic 新栈（Dreaming + Outcomes + Multi-Agent + Webhooks）用进生产的商业产品。他们做电商客服，请求路由到 Anthropic、OpenAI、Google、SpaceXAI、Meta 五家最强模型。说这是"自我改进自主 agent 的结构性解锁"。会话间记忆固化、按 rubric 打分的结果验收、并行子 agent 协作——autoresearch 用户手动连了几个月的东西，现在变成一方功能就能用。

💡#15

@brentdsummers
https://x.com/brentdsummers/status/2052100049077985334
对 Anthropic Dreaming 的总结："这是第一次有大模型把持久化、自我改进的 agent 当默认能力发出来。开发者不用再自己 hack 记忆层和无限提示词循环了"。这帖跟 @hirefortuna 互补，把同一件事翻译成产品语言——autoresearch 循环已经从 builder 自己搭的模式升级成默认的产品能力。

💡#16

@mudirshin
https://x.com/mudirshin/status/2052060400435249530
更尖锐的版本："睡觉时学习的自我改进 AI agent 不是小更新……如果 dreaming 真像描述的那样工作，Claude 跟其他模型的差距一夜之间又拉开了"。值得收，因为 mudirshin 描述的"差距"恰恰是 autoresearch overhang——Anthropic 把超级用户手动做的事情产品化了。

💡#17

@MagicalTux
https://x.com/MagicalTux/status/2051971851354878441
一个具体的多 agent autoresearch 模式在生产里跑：规格由 4 个角色、上下文相互隔离的 agent 一起写，再有一个 overviewing agent 强制规则、记录每个 agent 的工作，最后另一个 agent 读最终规格去实现。这才是"多 agent 编排"在落地层面真实的样子——不是"开 100 个 agent"，而是"4 个角色规格组 + reviewer + 实现者，阶段间严格隔离上下文"。

💡#18

@MrAhmadAwais
https://x.com/MrAhmadAwais/status/2052063719702855883
当天最深的 agent runtime 工程深挖。Command Code AI 支持会话中切模型时掉进了几天的兔子洞。要点：agent runtime 里每个"显然成立"的常量都是未来的 bug（他们的 200K context 常量稳了 8 个月，第 9 个月炸了）；切换时要 reconcile 状态而不是只重渲染；只在 context 缩小时压缩、相同或扩大时不要乱动；reconcile 路径要锁起来防止双击。真正咬人的是模型身份用字符串相等做匹配，但每个网关 slug 写法不一样，导致大约 3 个网关查不到上下文窗口大小，agent 在 100K 而不是 500K 处就开始悄悄自动压缩。

💡#19

@AnishDabhane
https://x.com/AnishDabhane/status/2051919721537441852
Hermes-agent 双层 context 压缩算法的工程总结。第一层 Gateway 在 85% 时触发、跑在 agent loop 之外——是 Telegram/Discord 这种被动堆消息平台的安全网。第二层 Agent Compressor 在 50% 时触发、跑在 loop 内、用上一回合 API 响应里的精确 token 数，4 步压缩流程：删旧工具输出、标头部+尾部保留、用辅助 LLM 总结中段、重组头+总结+尾。摘要有固定字段（目标、约束、进度、决策、文件、下一步、关键上下文），下次压缩时旧摘要被更新而不是重写——长 session 里上下文质量不掉。

💡#20

@Jeyxbt
https://x.com/Jeyxbt/status/2052040517832081659
400+ 小时 Claude Code 浓缩出来的"不撞墙"配置。Claude Code 是 harness 不是 model——你爱的那部分（文件编辑、技能系统、agent 流、终端 UI）是 harness，底下的 API 调用是可换的。架个代理拦截 Anthropic API，指向 DeepSeek V4（充 $2-5、完整工具调用，所有 skill 都能用），或者轮转 OpenRouter 免费池。然后开三个终端并行跑：Claude Opus/Sonnet、DeepSeek V4、免费 OpenRouter 轮转。三种成本档位、共享同一个工作目录。心法：Claude 是设计王（UI、文案、品味），DeepSeek 干脏活（重构、单测、异步边界），Codex 是 review 的最后一关。

💡#21

@so_sthbryan
https://x.com/so_sthbryan/status/2051824012188135773
DeepClaude 上 HN 头版 464 分：开源项目，让 Claude Code 的 agent loop 跑在 DeepSeek V4 Pro 上，单任务成本便宜 17 倍。同一套 Claude Code 界面，DeepSeek 的 API 价格。和 @Jeyxbt 是同一个剧本——agent loop 和工具集成才是价值，底下的模型可替换。

💡#22

@kocer_eth
https://x.com/kocer_eth/status/2052138613769474434
对 DeepClaude 为什么重要的更锐利分析："如果它的声明成立，这是把 Claude Code 的 agent loop 留下来、把请求路由到更便宜的 Anthropic 兼容后端。最适合：长跑的自主任务、实验、对成本敏感的工作流"。autoresearch 含义最值得划重点——跑过夜 autoresearch 循环的人，有真实的动机去把 harness 下面的模型换掉。

💡#23

@cubafran
https://x.com/cubafran/status/2052030326046683155
小但有用的 loop 修复：AI agent 填注册表单、点 "创建账户"，然后撞墙在 "去查邮箱"。修法：Claude Code 加一个 MCP 邮件 server，让 agent 自己读 OTP 接着跑。大多数 agentic 流程恰恰断在邮件 OTP 这道边界。补上 MCP 邮件之后，一次性注册变成全自动注册循环。

💡#24

@AmMrAnonymous
https://x.com/AmMrAnonymous/status/2051944816389333380
确定性反馈把 loop 收紧的例子：Claude Code 写 `<button className="bg-[#1a5276] text-white">`，Deslint MCP 回复"对比度 3.2:1、不是 token、没有 dark variant"，Claude Code 在同一个 agent loop 里就改完，代码到达用户之前已经修好。确定性进、更好的代码出。这是 autoresearch 模式但 eval 是确定性的（lint 规则）而不是概率性的——正好对应 Karpathy 那句"任何可编辑文件 + 可测量指标 = 自动化实验循环"。

💡#25

@sqs
https://x.com/sqs/status/2052129216007971230
Sourcegraph 的 Amp CLI 现在把 agent loop 跑在服务器侧，本地数据收发减少约 95%。表面卖点是飞机 wifi 都能用，但架构含义更大——一旦 loop 跑在服务端，真正的远程/无头 agent 执行就成默认了，你笔记本睡着不会断掉过夜 run。

💡#26

@aiwithjainam
https://x.com/aiwithjainam/status/2052003742959259732
DeepSeek-TUI 把 Claude Code 有的全部塞进来：带 diff 预览的文件编辑工具、loop 里的 shell 执行、网页浏览查实时文档、原生 Git、session resume。一行 npm install，登录一次，MIT 协议。又一个本周"harness 和 model 解耦"的实例。

💡#27

@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2051929960269611484
Ruflo 的角色拆分循环：架构师 agent 规划，编码 agent 实现，测试 agent 检查，审稿 agent 改进，共享内存把它们对齐。本身偏通用，但作为对照很有用——和 @MagicalTux 的"4 个规格 agent + reviewer + 实现者"是同一个思路、不同的角色切法、同样依赖隔离上下文加共享状态。

💡#28

@therobertta_
https://x.com/therobertta_/status/2051950321501630699
大多数团队在 agent harness 上犯的四个错：把编排和执行打包在同一个进程、单个工具超时把整个 loop 冻住、重试逻辑写在 LLM 调用里而不是外面、没有隔离就没法独立扩缩。Demo 跑得通，到 100 个并发用户就崩。他自己见过 6 个月内 3 个 agent 创业公司死在这上面。架构往往才是真正的瓶颈，不是模型。

💡#29

@meta_alchemist
https://x.com/meta_alchemist/status/2051974293328896277
Spark：递归自我改进的个人 agent 操作系统，配套有一整个 agentic 工具生态。自我描述是"递归自我改进循环的产品化"。野心放在 OS 级而不是 skill 级——是 agent 演化的底座，不是单个会自我改进的 agent。

💡#30

@JackyisThinking
https://x.com/JackyisThinking/status/2051984289827631222
当天的记忆架构地图。AI 长期记忆涌现出三种路线，每种处理一种约束：OpenClaw + Hermes（loop 驱动的 session 记忆）、Garry Tan / gbrain 那一派的自演化图记忆、Mem Palace 的精确检索风格。作者在做的事情是把三种整合，让 AI 拥有像人一样会随用户成长的记忆。记忆是 autoresearch 的 eval 落点——没有持久化记忆，每个循环都从零开始。

💡#31

@token_forge007
https://x.com/token_forge007/status/2051842577956217131
经过几个月失败之后终于跑通的自我改进写作 agent。叫 Meridian Agent，作者顺嘴说"已经在给 160 个用户产生收入"。最有意思的不是产品，是那句"几个月失败"——自我改进的写作 agent 不是一个免费的 trick，难的是 eval 信号怎么设计。

💡#32

@avaxnaut
https://x.com/avaxnaut/status/2052085841715999040
回 Boris Cherny 的一条：用 Claude Code 在搭一个自我改进的知识图谱——一个流式的语言+数据结构，存数据 factum 之间的关系，并打 V&V（验证+确认）权重，目标是让图、语言本身、深度、覆盖范围、系统自主性都能自我改进。还没有成型产品，但这个野心——autoresearch 跑在一个把语言定义本身也包进去的知识图谱上——是这一批里最大胆的循环架构。

💡#33

@DataChaz
https://x.com/DataChaz/status/2052078189627947674
Claude Code Routines 几天前刚发，Multica Autopilot 已经把它克隆出来了。重点：routine（计划循环原语）现在可以完全本地跑，用任何 agent 都行——Opencode、Codex、Hermes、OpenClaw 都支持。autoresearch 含义是：cron 跑过夜实验的能力，不再被某一家的 harness 绑死，谁都能跑。

💡#34

@curiosity_41
https://x.com/curiosity_41/status/2052163544217694683
`era` 是用 Rust 写的 v0 原型，做廉价快照、工作目录指针、`era watch` 自动按 agent / 任务 / 模型来源打快照。专门用来审计并行 coding agent 的 run。和 autoresearch 的关联是：当你并行跑几十个 agent 变体，你需要 provenance 才能知道哪条 trace 产生了哪种改进。era 是第一批专门为这种审计设计的工具。

💡#35

@hosseeb
https://x.com/hosseeb/status/2051841113657643397
"现在你的 agent 能修自己了"——Raindrop Triage，用一个 agent 找另一个 agent 出问题。自我修复的 agent 诊断是元 loop：eval 目标是 agent 自己的失败。这种模式接下来会到处出现，因为任何在跑长 autoresearch run 的团队都坐着一堆中途崩掉的 agent trace，总得有人去 triage。

💡#36

@rise_raise_ai
https://x.com/rise_raise_ai/status/2052117937067036980
对 Cursor 一条公告的解读："自我改进 loop 解锁了：上一代 Composer 模型在自动给下一代搭 RL 开发环境。纯粹的 bootstrapping 优雅——每一代都集中精力解决更难的问题。这就是前沿实验室加速的方式"。点子很重要——Cursor 不是发了个自我改进功能，是发出了"这个 loop 已经在前沿实验室内部跑"的证据。

📡 生态产品雷达

生态产品雷达

DeepClaude — 开源版的 Claude Code agent loop 跑在 DeepSeek V4 Pro 上，单任务成本砍到 1/17；HN 头版 464 分。同样的 harness，模型可换。

DeepSeek-TUI — DeepSeek 自家的 coding agent harness，文件编辑、shell、web、Git、session resume 全有；MIT，一行 npm install。

Open Research / AutoResearch（链上）— 把任意 GitHub 仓库 + benchmark 变成 TEE 验证的挖矿游戏；Karpathy 的 autoresearch 循环加密码学结算。

Anthropic Claude Managed Agents（Dreaming + Outcomes + Multi-Agent + Webhooks）— autoresearch 超级用户手动搭的模式的一方版本。

Hermes Agent — 多 skill 的 agent harness；新 browser-harness 技能内置自我改进的浏览器工具和并行隐身云浏览器；最干净的双层 context 压缩实现就在这里。

Multica Autopilot — Claude Code Routines 的开源克隆，可以在 Opencode / Codex / Hermes / OpenClaw 上本地跑，把 routine 从单一 harness 解绑。

Raindrop Triage — 找别的 agent 出问题的 agent；第一个广受关注、专门做 agent 自诊断的产品。

Spark — 递归自我改进的个人 agent 操作系统；不是单 skill 级、是 OS 级的自我改进。

← 上一篇

超级用户日报: 2026-05-08

灵感雷达: 2026-05-08

← 返回所有文章

加载中...

Loop 日报: 2026-05-08

更多文章

评论