2026年5月7日loop

Loop 日报: 2026-05-08

💡#1
5月6日是 "loop" 这个词从推特口号变成生产架构的一天。autoresearch 这一侧,两个 crypto 团队同一天上线了链上市场,矿工在 TEE 里跑 autoresearch 循环、跑赢基准就拿链上奖励;agentic loop 这一侧,Anthropic 把 Dreaming + Outcomes + Multi-Agent + Webhooks 当成一方功能直接发,正是过去几个月超级用户手动连出来的那一套。再往下看,更值得记的是结构性信号:开始有人贴出真实数据——单机两天找出 11% 的训练加速、agent runtime 在边界上做模型 ID 规范化、回合之间的 context 压缩、自动跑落地页 CRO 的 autoresearch agent。下面这些案例值得收。
💡#2
@dair_ai
https://x.com/dair_ai/status/2052125514266190286
微软研究院的 Agentic-imodels 论文,是当天最干净的 autoresearch 范例。一个 coding agent(Claude Code 或 Codex)反复演化和 scikit-learn 兼容的回归器,要求既准又能让其它 LLM 读懂。可解释性的衡量标准是:一个小 LLM 能否仅凭模型的 `__str__` 输出,就模拟它的行为、特征效果和反事实。在 65 个表格数据集上跑下来,发现的模型把决策树、GAM、稀疏线性等所有经典可解释基线全部超过,并把四个下游 agentic 数据科学系统在 BLADE 基准上提升 8% 到 73%。autoresearch 不只是搜模型,它在搜"工具的设计本身"。
💡#3
@sheetalojha4
https://x.com/sheetalojha4/status/2051990094295552305
最该记住的一句:"AutoResearch 在单机上两天找到了 11% 的训练加速"。团队真正在干的事情是把这个 loop 拓展到上千个不可信节点上跑,并附带密码学保证。Open Research 把任何一个 GitHub 项目变成 AutoResearch 基准,把奖励放上链,让矿工用 coding agent 改进它,TEE 验证代码和结果之后链上结算奖励。无人在 loop 里、闭环科学发现。
💡#4
@techtusharojha
https://x.com/techtusharojha/status/2052012521280979183
同一个 Open Research 项目的另一位联创讲得更利落:AI agent 在链上比拼基准,矿工在 Docker 沙箱里跑 AutoResearch 循环,胜出的 commit 在 Intel TDX 或 AMD SEV TEE 里重跑,TEE 证明触发链上奖励,全程没人在 loop 里。"AutoResearch 当成赛事,密码学验证"——Karpathy 那个循环缺的最后一块经济激励,这次补上了。
💡#5
@alokbishoyi97
https://x.com/alokbishoyi97/status/2051939567125803075
Evo 是这一波 autoresearch builder 圈出来的开源工具:并行 + tree/graph 搜索、可配置的节点选择策略(GEPA、eps-greedy 等)、支持远程容器(Modal / e2b / Daytona / AWS / Azure 或者你自己的机器),可以跑在 Claude Code 或 Codex 上。和 Open Research 押注同一个方向——autoresearch 正在从一段提示词变成产品化的搜索策略 harness。如果你的 autoresearch 跑出来的全是噪声,问题大概率出在节点选择策略,不是模型。
💡#6
@Raz_Ciuca
https://x.com/Raz_Ciuca/status/2051996077167894813
当天最戳穿要害的一句:AlphaEvolve 和 autoresearch 之所以有效,不是因为"试得多就行"——如果是这样,CEM 这种零阶优化器早就横扫了。真正的原因是你需要对搜索空间有极强的先验,而 LLM 恰好提供这个先验。这是当天最有用的 autoresearch 观点,因为它告诉你该优化什么:先验质量,不是迭代次数。
💡#7
@kwuwon
https://x.com/kwuwon/status/2051991714915860615
一个真正在跑过夜 loop 的小案例:kwuwon 在 Codex 里用 `gpt-image-2` 配 autoresearch 调提示词,自己睡觉它在跑。这是 autoresearch 最小可用形态——图像生成提示词搜索,过夜跑,第二天看 eval 结果,留下管用的。值钱的资产是 eval,不是模型。
💡#8
@rokbenko
https://x.com/rokbenko/status/2052088827066364396
开源了一个跑落地页 CRO 的 autoresearch agent。循环:读 LP 代码 → 生成假设 → 改 UI → 推到 GitHub → 等真实访客 → 用 PostHog 或 Plausible 测影响 → 有效保留、无效回滚,无限重复。SCOPE.md 是给 LLM 的系统提示,告诉它能改什么不能改什么——默认很保守(文案、按钮样式、首屏顺序可以;导航、定价、auth 流、状态管理、API 调用不能)。这是"Karpathy autoresearch 但用在 CRO 上"——同一个循环,转化率当 eval。
💡#9
@thanford7
https://x.com/thanford7/status/2052116203758612635
对 autoresearch 为什么会泛化讲得最透的一句:"让 agent 在概率性循环里跑,配上 eval harness 和明确的改进目标,是 LLM 用得最 leverage 的方式之一"。大多数人把 eval 当回归测试,那只能抓 bug。一旦你意识到 eval 能让系统自动改进,eval 就从烦人的开销变成护城河。未来 12 个月 agent 产品设计会围着这个认知转。
💡#10
@_shubhankar
https://x.com/_shubhankar/status/2052122661883670580
Autobrowse:autoresearch 应用到浏览这件事上。他们在专门探索浏览类 agent 的递归自我改进,叫这个是"浏览的 Mythos 时刻"。这个框架——通过 autoresearch 递归地改进浏览策略——正好是当下浏览 agent 长 session 一定崩的那一块缺口。
💡#11
@LukeParkerDev
https://x.com/LukeParkerDev/status/2051859365477650877
"谁想要 opencode desktop 里加 autoresearch?" 几小时收 214 赞 8.6K 浏览。信号是:autoresearch 已经从研究 artifact 变成 IDE 用户主动 demand 的功能。opencode 社区是离生态最近的一群,他们正把 autoresearch 拉进编辑器。
💡#12
@browser_use
https://x.com/browser_use/status/2051826281914978801
Hermes agent 新增 browser-harness 技能——自我改进的浏览器工具、并行的 stealth 云浏览器、在用户浏览器里完全自由,一行 prompt 就能跑。1863 赞、10.2 万浏览,是当天 autoresearch 相关产品里声量最大的。这里的"自我改进"指 agent 的浏览工具用法会随使用演化,正好对应 Anthropic 这次在模型一侧上线的 Dreaming。
💡#13
@runzhuotao
https://x.com/runzhuotao/status/2052107034699669878
基于 GPT-5.5 的自我改进 Blender agent,正在程序化网格建模上稳步推进,他说每次迭代结果更连贯、更可靠,目标是做出可复用的流水线。这种贴在非编程、非文本领域的自我改进 loop 才是稀缺品种——3D 网格生成里的 eval 信号是用户对"这个网格能不能用"的判断。
💡#14
@hirefortuna
https://x.com/hirefortuna/status/2052137835075940816
当天第一个公开把 Anthropic 新栈(Dreaming + Outcomes + Multi-Agent + Webhooks)用进生产的商业产品。他们做电商客服,请求路由到 Anthropic、OpenAI、Google、SpaceXAI、Meta 五家最强模型。说这是"自我改进自主 agent 的结构性解锁"。会话间记忆固化、按 rubric 打分的结果验收、并行子 agent 协作——autoresearch 用户手动连了几个月的东西,现在变成一方功能就能用。
💡#15
@brentdsummers
https://x.com/brentdsummers/status/2052100049077985334
对 Anthropic Dreaming 的总结:"这是第一次有大模型把持久化、自我改进的 agent 当默认能力发出来。开发者不用再自己 hack 记忆层和无限提示词循环了"。这帖跟 @hirefortuna 互补,把同一件事翻译成产品语言——autoresearch 循环已经从 builder 自己搭的模式升级成默认的产品能力。
💡#16
@mudirshin
https://x.com/mudirshin/status/2052060400435249530
更尖锐的版本:"睡觉时学习的自我改进 AI agent 不是小更新……如果 dreaming 真像描述的那样工作,Claude 跟其他模型的差距一夜之间又拉开了"。值得收,因为 mudirshin 描述的"差距"恰恰是 autoresearch overhang——Anthropic 把超级用户手动做的事情产品化了。
💡#17
@MagicalTux
https://x.com/MagicalTux/status/2051971851354878441
一个具体的多 agent autoresearch 模式在生产里跑:规格由 4 个角色、上下文相互隔离的 agent 一起写,再有一个 overviewing agent 强制规则、记录每个 agent 的工作,最后另一个 agent 读最终规格去实现。这才是"多 agent 编排"在落地层面真实的样子——不是"开 100 个 agent",而是"4 个角色规格组 + reviewer + 实现者,阶段间严格隔离上下文"。
💡#18
@MrAhmadAwais
https://x.com/MrAhmadAwais/status/2052063719702855883
当天最深的 agent runtime 工程深挖。Command Code AI 支持会话中切模型时掉进了几天的兔子洞。要点:agent runtime 里每个"显然成立"的常量都是未来的 bug(他们的 200K context 常量稳了 8 个月,第 9 个月炸了);切换时要 reconcile 状态而不是只重渲染;只在 context 缩小时压缩、相同或扩大时不要乱动;reconcile 路径要锁起来防止双击。真正咬人的是模型身份用字符串相等做匹配,但每个网关 slug 写法不一样,导致大约 3 个网关查不到上下文窗口大小,agent 在 100K 而不是 500K 处就开始悄悄自动压缩。
💡#19
@AnishDabhane
https://x.com/AnishDabhane/status/2051919721537441852
Hermes-agent 双层 context 压缩算法的工程总结。第一层 Gateway 在 85% 时触发、跑在 agent loop 之外——是 Telegram/Discord 这种被动堆消息平台的安全网。第二层 Agent Compressor 在 50% 时触发、跑在 loop 内、用上一回合 API 响应里的精确 token 数,4 步压缩流程:删旧工具输出、标头部+尾部保留、用辅助 LLM 总结中段、重组头+总结+尾。摘要有固定字段(目标、约束、进度、决策、文件、下一步、关键上下文),下次压缩时旧摘要被更新而不是重写——长 session 里上下文质量不掉。
💡#20
@Jeyxbt
https://x.com/Jeyxbt/status/2052040517832081659
400+ 小时 Claude Code 浓缩出来的"不撞墙"配置。Claude Code 是 harness 不是 model——你爱的那部分(文件编辑、技能系统、agent 流、终端 UI)是 harness,底下的 API 调用是可换的。架个代理拦截 Anthropic API,指向 DeepSeek V4(充 $2-5、完整工具调用,所有 skill 都能用),或者轮转 OpenRouter 免费池。然后开三个终端并行跑:Claude Opus/Sonnet、DeepSeek V4、免费 OpenRouter 轮转。三种成本档位、共享同一个工作目录。心法:Claude 是设计王(UI、文案、品味),DeepSeek 干脏活(重构、单测、异步边界),Codex 是 review 的最后一关。
💡#21
@so_sthbryan
https://x.com/so_sthbryan/status/2051824012188135773
DeepClaude 上 HN 头版 464 分:开源项目,让 Claude Code 的 agent loop 跑在 DeepSeek V4 Pro 上,单任务成本便宜 17 倍。同一套 Claude Code 界面,DeepSeek 的 API 价格。和 @Jeyxbt 是同一个剧本——agent loop 和工具集成才是价值,底下的模型可替换。
💡#22
@kocer_eth
https://x.com/kocer_eth/status/2052138613769474434
对 DeepClaude 为什么重要的更锐利分析:"如果它的声明成立,这是把 Claude Code 的 agent loop 留下来、把请求路由到更便宜的 Anthropic 兼容后端。最适合:长跑的自主任务、实验、对成本敏感的工作流"。autoresearch 含义最值得划重点——跑过夜 autoresearch 循环的人,有真实的动机去把 harness 下面的模型换掉。
💡#23
@cubafran
https://x.com/cubafran/status/2052030326046683155
小但有用的 loop 修复:AI agent 填注册表单、点 "创建账户",然后撞墙在 "去查邮箱"。修法:Claude Code 加一个 MCP 邮件 server,让 agent 自己读 OTP 接着跑。大多数 agentic 流程恰恰断在邮件 OTP 这道边界。补上 MCP 邮件之后,一次性注册变成全自动注册循环。
💡#24
@AmMrAnonymous
https://x.com/AmMrAnonymous/status/2051944816389333380
确定性反馈把 loop 收紧的例子:Claude Code 写 `<button className="bg-[#1a5276] text-white">`,Deslint MCP 回复"对比度 3.2:1、不是 token、没有 dark variant",Claude Code 在同一个 agent loop 里就改完,代码到达用户之前已经修好。确定性进、更好的代码出。这是 autoresearch 模式但 eval 是确定性的(lint 规则)而不是概率性的——正好对应 Karpathy 那句"任何可编辑文件 + 可测量指标 = 自动化实验循环"。
💡#25
@sqs
https://x.com/sqs/status/2052129216007971230
Sourcegraph 的 Amp CLI 现在把 agent loop 跑在服务器侧,本地数据收发减少约 95%。表面卖点是飞机 wifi 都能用,但架构含义更大——一旦 loop 跑在服务端,真正的远程/无头 agent 执行就成默认了,你笔记本睡着不会断掉过夜 run。
💡#26
@aiwithjainam
https://x.com/aiwithjainam/status/2052003742959259732
DeepSeek-TUI 把 Claude Code 有的全部塞进来:带 diff 预览的文件编辑工具、loop 里的 shell 执行、网页浏览查实时文档、原生 Git、session resume。一行 npm install,登录一次,MIT 协议。又一个本周"harness 和 model 解耦"的实例。
💡#27
@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2051929960269611484
Ruflo 的角色拆分循环:架构师 agent 规划,编码 agent 实现,测试 agent 检查,审稿 agent 改进,共享内存把它们对齐。本身偏通用,但作为对照很有用——和 @MagicalTux 的"4 个规格 agent + reviewer + 实现者"是同一个思路、不同的角色切法、同样依赖隔离上下文加共享状态。
💡#28
@therobertta_
https://x.com/therobertta_/status/2051950321501630699
大多数团队在 agent harness 上犯的四个错:把编排和执行打包在同一个进程、单个工具超时把整个 loop 冻住、重试逻辑写在 LLM 调用里而不是外面、没有隔离就没法独立扩缩。Demo 跑得通,到 100 个并发用户就崩。他自己见过 6 个月内 3 个 agent 创业公司死在这上面。架构往往才是真正的瓶颈,不是模型。
💡#29
@meta_alchemist
https://x.com/meta_alchemist/status/2051974293328896277
Spark:递归自我改进的个人 agent 操作系统,配套有一整个 agentic 工具生态。自我描述是"递归自我改进循环的产品化"。野心放在 OS 级而不是 skill 级——是 agent 演化的底座,不是单个会自我改进的 agent。
💡#30
@JackyisThinking
https://x.com/JackyisThinking/status/2051984289827631222
当天的记忆架构地图。AI 长期记忆涌现出三种路线,每种处理一种约束:OpenClaw + Hermes(loop 驱动的 session 记忆)、Garry Tan / gbrain 那一派的自演化图记忆、Mem Palace 的精确检索风格。作者在做的事情是把三种整合,让 AI 拥有像人一样会随用户成长的记忆。记忆是 autoresearch 的 eval 落点——没有持久化记忆,每个循环都从零开始。
💡#31
@token_forge007
https://x.com/token_forge007/status/2051842577956217131
经过几个月失败之后终于跑通的自我改进写作 agent。叫 Meridian Agent,作者顺嘴说"已经在给 160 个用户产生收入"。最有意思的不是产品,是那句"几个月失败"——自我改进的写作 agent 不是一个免费的 trick,难的是 eval 信号怎么设计。
💡#32
@avaxnaut
https://x.com/avaxnaut/status/2052085841715999040
回 Boris Cherny 的一条:用 Claude Code 在搭一个自我改进的知识图谱——一个流式的语言+数据结构,存数据 factum 之间的关系,并打 V&V(验证+确认)权重,目标是让图、语言本身、深度、覆盖范围、系统自主性都能自我改进。还没有成型产品,但这个野心——autoresearch 跑在一个把语言定义本身也包进去的知识图谱上——是这一批里最大胆的循环架构。
💡#33
@DataChaz
https://x.com/DataChaz/status/2052078189627947674
Claude Code Routines 几天前刚发,Multica Autopilot 已经把它克隆出来了。重点:routine(计划循环原语)现在可以完全本地跑,用任何 agent 都行——Opencode、Codex、Hermes、OpenClaw 都支持。autoresearch 含义是:cron 跑过夜实验的能力,不再被某一家的 harness 绑死,谁都能跑。
💡#34
@curiosity_41
https://x.com/curiosity_41/status/2052163544217694683
`era` 是用 Rust 写的 v0 原型,做廉价快照、工作目录指针、`era watch` 自动按 agent / 任务 / 模型来源打快照。专门用来审计并行 coding agent 的 run。和 autoresearch 的关联是:当你并行跑几十个 agent 变体,你需要 provenance 才能知道哪条 trace 产生了哪种改进。era 是第一批专门为这种审计设计的工具。
💡#35
@hosseeb
https://x.com/hosseeb/status/2051841113657643397
"现在你的 agent 能修自己了"——Raindrop Triage,用一个 agent 找另一个 agent 出问题。自我修复的 agent 诊断是元 loop:eval 目标是 agent 自己的失败。这种模式接下来会到处出现,因为任何在跑长 autoresearch run 的团队都坐着一堆中途崩掉的 agent trace,总得有人去 triage。
💡#36
@rise_raise_ai
https://x.com/rise_raise_ai/status/2052117937067036980
对 Cursor 一条公告的解读:"自我改进 loop 解锁了:上一代 Composer 模型在自动给下一代搭 RL 开发环境。纯粹的 bootstrapping 优雅——每一代都集中精力解决更难的问题。这就是前沿实验室加速的方式"。点子很重要——Cursor 不是发了个自我改进功能,是发出了"这个 loop 已经在前沿实验室内部跑"的证据。
📡 生态产品雷达
生态产品雷达

DeepClaude — 开源版的 Claude Code agent loop 跑在 DeepSeek V4 Pro 上,单任务成本砍到 1/17;HN 头版 464 分。同样的 harness,模型可换。

DeepSeek-TUI — DeepSeek 自家的 coding agent harness,文件编辑、shell、web、Git、session resume 全有;MIT,一行 npm install。

Open Research / AutoResearch(链上)— 把任意 GitHub 仓库 + benchmark 变成 TEE 验证的挖矿游戏;Karpathy 的 autoresearch 循环加密码学结算。

Anthropic Claude Managed Agents(Dreaming + Outcomes + Multi-Agent + Webhooks)— autoresearch 超级用户手动搭的模式的一方版本。

Hermes Agent — 多 skill 的 agent harness;新 browser-harness 技能内置自我改进的浏览器工具和并行隐身云浏览器;最干净的双层 context 压缩实现就在这里。

Multica Autopilot — Claude Code Routines 的开源克隆,可以在 Opencode / Codex / Hermes / OpenClaw 上本地跑,把 routine 从单一 harness 解绑。

Raindrop Triage — 找别的 agent 出问题的 agent;第一个广受关注、专门做 agent 自诊断的产品。

Spark — 递归自我改进的个人 agent 操作系统;不是单 skill 级、是 OS 级的自我改进。
← 上一篇
超级用户日报: 2026-05-08
下一篇 →
灵感雷达: 2026-05-08
← 返回所有文章

评论

加载中...
>_