2026年5月31日loop

Loop 日报: 2026-05-31

今天 autoresearch 这条线被转得最多的不是哪条胜利，而是一条警告：TheChowdhary 在一笔客户续约扩单上把 Claude+Codex 的 auto-research 跑了 2-3 小时、烧了 $500+，得到了「完全随机、毫无意义」的结果，关上电脑想了 10 分钟，手画一张 3 行的 Excel，10 分钟成单。这条故事就是今天的主线——autoresearch 加 agentic loop 在「只有循环才能干的事」上（并行探索、自我纠错、烧十亿 token 的深扫描）猛得离谱，在「人本来就该亲自判断的事」上烂得离谱。底下真正在 ship 的事：AutoScientists 开源了一套去中心化 AI 实验室团队、在 baseline 之上 +8.33 个百分点；evo 跨过了 1 万个项目；Karpathy 的 autoresearch 接到 Polymarket BTC bot 上（有保留地）跑出 100% winrate；有人 7x24 跑 8 个 Claude Code agent 还带个「对抗式 sleep」周期。「循环成为工作单位」的时代到了；「我们知道怎么给它做预算」的时代还没到。

💡#1

@TheChowdhary
https://x.com/TheChowdhary/status/2060171961171677579
本周最佳「agent 心理崩溃」故事。要把一个客户从 $140K ACV 续约扩单到 3-4 倍，前置 discovery 已经做完。定义了 loss function（快关单、最大化金额、最小化让步），把 Claude + Codex 指到过去 1.5 年所有成单数据上，开启 autoresearch loop 跑了 2-3 小时，两个 agent 总共烧了 $500+。结果：完全随机，根本不是客户真正想要的。关上电脑认真想了 10 分钟，做了一张 3 行的小 Excel——按 feature 算价、加一个总数，微信发给客户那边的 champion。10 分钟答应。教训：你得知道在哪些事上 agent 赢，在哪些事上你才是那个最懂问题的人。

💡#2

@BiologyAIDaily
https://x.com/BiologyAIDaily/status/2060386142986637481
AutoScientists 是一套去中心化的「AI 实验室团队」，专门跑长周期计算实验。没有中央规划器。Agent 持有彼此竞争的假设、并行跑实验、把成功和失败都记录下来，所以早期想法到瓶颈以后搜索还能继续。Agent 会按证据演变自组织成 team——可以新建、合并、拆分、退役。BioML-Bench（24 个生物医药 ML 任务）上：74.4% 的平均 leaderboard 百分位，比 Autoresearch baseline 高 8.33 分，提升最大的在 drug discovery（64.52% 对 46.16%）。GPT nanochat 训练：到达目标 val_bpb 大约快 1.9 倍（34 次实验 vs 65）。ProteinGym：把 ACE2-Spike 的 Spearman 相关性从 0.747 拉到 0.840，整个 recipe 冻结迁移到全部 217 个 assay，把官方平均 Spearman 从 0.657 拉到 0.700。

💡#3

@goodworse
https://x.com/goodworse/status/2060346518276620689
Karpathy 那套 autoresearch 被接到 Polymarket 5 分钟 BTC 市场的交易 bot 上。Claude Code 做编排器，Opus 4.6 实现策略修改，系统自动改进策略、跑测试、做调整。报出来的是 100% winrate（注意：作者从 Opus 跑出来的策略测试结果里挑了最好的，配了 16 分钟视频）。架构层面真正有意思的点：短周期市场短到 autoresearch loop 的迭代速度可以追上市场漂移。

💡#4

@manthanguptaa
https://x.com/manthanguptaa/status/2060237811916406907
他最近搭的最有用的工作流：给 agentic system 做的一个 autoresearch loop。每次给一个新 agent 加多个工具的时候，他放一个 LLM 进 repo 里，让它生成复杂的、像真用户那样的 query 来压测系统。每个 query 真的去打 endpoint。LLM 然后看 Braintrust trace、终端输出、Tempo log，找失败、工具使用错误、弱 prompt 这些。找到问题就修、再跑。在真实用户工作流上做 hill climbing，不是在 benchmark eval 上。现在是他给 agent 做集成测试的第一道关。

💡#5

@kylejeong（被 @alexcovo_eth 转）
https://x.com/kylejeong/status/2060151131540750593
「真不敢相信居然有人不知道，你可以用迭代式 AutoResearch 把自己的 skill 做得更好——我们就是这么改进自家 browser skill 的。」OpenClaw 的 browser skill 生态正在用 AutoResearch 迭代式地改进 skill 本身——skill 变成一个 agent 不断在精修的活靶子，不是一个冻结的文件。两天 91 次转发。

💡#6

@alokbishoyi97
https://x.com/alokbishoyi97/status/2060389465752064346
evo 是一个 autoresearch 编排器，发布一个月内已经在 1 万多个项目里被用到，原生支持 Hermes。配套的产品定位：开源 autoresearch 平台，把代码库变成自改进的循环。发现指标、跑并行实验（AI agent 通过 tree search）、自动优化软件/模型/系统。托管基础设施支持 7x24 跑，GitHub 800+ star，外部 PR 已经在进来。/discover 和 /optimize 这两条命令一直保持简洁，哪怕底下的引擎越变越重。

💡#7

@svgoiboi
https://x.com/svgoiboi/status/2060441131721380139
报告了一次 2 小时的 serverless autoresearch 跑 TIGER 推荐系统模型。一个小但具体的节拍参考：推荐系统研究员「我想试个想法」的循环，现在闭合时间是一个下午的算力，不是一个 sprint 的工程。

💡#8

@ttunguz
https://x.com/ttunguz/status/2060393528729976357
现在共鸣最广的那个架构总结：三层——QMD（本地 markdown 知识库，约 80 个工作流文件）、Skills（原子化的 SKILL.md 文件，一个文件干一件事）、Agent Loop（一个模型跑 Plan → Tool Call → Observe → Refine，覆盖 17 个 Rust API）。读起来不像「技术栈」，更像「组织架构图」：写下来的工作场所规则、具体的岗位说明、真正干活的人。

💡#9

@ttunguz
https://x.com/ttunguz/status/2060393542279926093
更重要的是配套那条观察：skill 本身是怎么写出来的。一个前沿模型写 skill，同一个模型写打分的 eval，然后它自己写、测、重写，直到准确率收敛。「自改进的机构记忆」。当你让模型自己拥有 skill 库的时候，这个词就是它的真正定义。

💡#10

@lifeofadvait
https://x.com/lifeofadvait/status/2060355864456990953
「我有一个 agent loop 已经跑了一个小时，在尝试做一件野心很大的事。」配置：在 Mars Computer 上装了个桌面环境，让 agent 能截图看输出；本地 Mac 上一个远程 agent loop 在跑。他可以关上笔记本，所有东西继续跑。从床上看着。这句很平常的话——「我关上电脑 agent 继续干活」——在 18 个月前还是科幻引言。

💡#11

@agentic_james
https://x.com/agentic_james/status/2060440172257284394
7x24 跑 8 个 Claude Code agent，它们互相对话、互相做实验——他给取名 cortextOS。自改进靠一个 auto-research 周期，还有个「θ 波睡眠」功能：晚上两个 agent 走对抗模式，找彼此的漏洞。把 agent 做梦当成 debug 机制来用，是真的。

💡#12

@0x_Punisher
https://x.com/0x_Punisher/status/2060291073369334260
ForgeTrain 在 5 月 26 号发布——第一个完全由 AI 生成的 LLM 预训练框架。一个自主 agent loop 端到端写完，没有人类工程师指导架构。号称在 H100 上效率比 NVIDIA Megatron 高约 10%，还能在华为昇腾上跑。对预测市场玩家有意思的角度：ForgeTrain 让用 Polymarket 历史结果数据（几千个市场多年的结算价、波动模式、insider 钱包行为）训练一个小的专用模型，突然变得普通人也能搞了，不需要庞大基础设施团队。

💡#13

@dair_ai
https://x.com/dair_ai/status/2060373102119555191
Microsoft + Purdue 的论文：proactive agent loop 真的需要一个 LLM 来决定什么时候醒吗？他们的答案是一个 220MiB 的 temporal-graph encoder，决定什么时候醒、把上下文锚定到哪。在 14 个 backbone 上 +16.7 mean F1，快 4-83 倍，端侧每事件约 11ms。always-on 的 agent loop 里，「要不要触发」这个决定其实是最大的隐性成本——这个 encoder 把它换成一个小模型，准确率不掉。

💡#14

@Marktechpost
https://x.com/Marktechpost/status/2060473324216729739
Step 3.7 Flash 的 advisor mode 是本周最有意思的「成本形状」原语。小执行器（Step 3.7 Flash，198B sparse MoE，激活 11B）跑 agentic loop，只在规划或失败的节点上向前沿级别的 advisor 升级。SWE-Bench Verified 76.3%、每个任务 $0.19。Claude Opus 4.6 是 78.7%、每任务 $1.76。大致同等编码能力，9% 的成本。「每一轮循环都用前沿模型」的时代正在快速结束。

💡#15

@GrishinRobotics
https://x.com/GrishinRobotics/status/2060495861033865405
Modiqo 拿了 $3M pre-seed（Heavybit + Seligman 共同领投），做 Rote——一个本地执行层，捕获成功的 AI agent 跑批、变成确定性的、可复用的工作流。前提是那个最不性感的问题：agent 第二天会重新发现昨天用过的 API、prompt、脚本、edge case。Rote 坐在 agent loop 下面，记录每个 agent 做了什么，把跑通的路径保存成团队可以重复、检查、改进的持久资产。真正的考验：生产环境的 agent 可靠性，是靠 agent 想得更努力，还是靠知道什么时候停下不想、复用昨天的成果。

💡#16

@datalayerxyz
https://x.com/datalayerxyz/status/2060425544291000509
Polymarket Agents 在 Datalayer 上线——自主 AI agent 监控市场、分析叙事、下预测注、通过 memory/signals/执行历史持续改进。Hyperliquid Agents 下周。链上经济的自改进金融 agent。Agent loop 架构现在直接卖给资本配置方，不只是开发者。

💡#17

@rasmus1610
https://x.com/rasmus1610/status/2060230749714870521
「Autoresearch 是穷人版的 GEPA。」短而可引用。讲的是优化压力光谱：GEPA（Karpathy 风格的遗传演化+policy adaptation）更贵、更有原则；autoresearch loop 更野、更快、对大部分你真想优化的事情足够好。引出了一小段「为什么不两个一起跑」的回复线。

💡#18

@antisadh
https://x.com/antisadh/status/2060348525788143920
所有人都该用的 Man Group 案例：Man Group 以前一个季度测 20 个交易信号。用了他们的 AlphaGPT 多 agent loop（一个 agent 生成假设、一个写代码、一个尝试推翻、一个评估）之后，现在每周测几百个。边在哪？不是模型——是从「想法」到「验证」的速度。同样 Jane Street 那套要 $60 亿 GPU 才能跑的基础设施，正在因为架构开始商品化，变成 $3 一块芯片加公开工具就能搭起来的东西。

💡#19

@dessaigne
https://x.com/dessaigne/status/2060403551218884890
今天落地的那条给创业者的建议：「花 token，不花人头。」记录一切、让你的公司可被查询、搭自改进循环。「AI 不只是帮你运营公司，是把公司本身做成自改进的。别想 AI adoption，想 AI transformation。」17.9 万 impression、1.8K 赞——「花 token 不花人头」这个 frame 正在成为 AI 原生公司的运营模板。

💡#20

@michaltakac
https://x.com/michaltakac/status/2060456059584872569
今天是他 9-5 的最后一天。紧接着开始帮 founder 把公司改造成「自改进的 agentic 组织」。周三关于 @papercliping 那场演讲结束后，当场签了 4 个客户。围绕 agentic 组织的「组织设计咨询」现在是一门可计费的生意，演讲结束 2 天就有人付钱。

💡#21

@const_reborn
https://x.com/const_reborn/status/2060276456375144888
「auto-research loop 的最终形态是 research proof-of-work loop。」8 个字。洞察：当 AI 研究被自动化以后，瓶颈从「想法」转向「可验证、有成本、不可伪造的工作证据」——这玩意儿看起来出奇地像一个 proof-of-work 原语。81 赞 14 转，那种半年后会被论文里反引的句子。

💡#22

@0xMortyx
https://x.com/0xMortyx/status/2060358999862591518
Metaview 关于「自改进 prompt」的解读是「每个 AI 招聘栈底下那层缺的东西」。论点：所有人都迷模型；真正的瓶颈是那个评估几千份简历、每跑一次都变得更好的 prompt。把「自改进 prompt」当成一个垂直、招聘专属的 autoresearch loop 来做。

💡#23

@AnuragShar74342
https://x.com/AnuragShar74342/status/2060232174306316687
对 OpenClaw 内部架构的清晰拆解：一个本地常驻的 gateway 当神经系统、一个 agent runtime 拼上下文（memory 文件 + 对话历史 + SOUL.md + session 状态）跑标准的 tool loop、模块化的 markdown skill（agent 可以中途自己给自己写新 skill）、本地 markdown 存的 memory（上下文跨 session 存活）。重点不是说这些哪个是新东西——而是「一个周末项目跨过 20 万 star 成为 2026 年初增长最快的开源仓库之一」这件事，是由刚好这些原语撑起来的。

💡#24

@MinaryAI
https://x.com/MinaryAI/status/2060474284435214448
「代码就是文档。」整个 agent loop runtime 开源：core loop、executor、model router、learner、MCP server、Solana 工具、eval harness。不是预告 repo 也不是精选子集。MIT，Node 20+。对任何想搞懂「agent loop runtime 在源码层面到底是什么」的人来说是个有用的参考实现。

💡#25

@Royal_Arse
https://x.com/Royal_Arse/status/2060453963854418302
对所有 autoresearch 热度的脾气暴的反向看法。18 个月每周 50+ 小时用前沿模型，几十亿 token——只有 3 次单次会话超过 $100。「大花钱的都是懒蛋，loop 跑个不停指望机器自己想通——这在多数公司都是开除级行为。」3 分钟用 Vibe Coding 搭了个 cost-guard 扩展，成本到 $100 就停下来问要不要继续，公司里 opt-in 推开。论点是 cost control 本来就是你的活，不是 Anthropic 或 OpenAI 的活。

💡#26

@jsyqrt
https://x.com/jsyqrt/status/2060356531829518813
「$5 亿是伪装成账单的治理失败。」从 18 个月做 Markus 的经验，真正的威胁是 agent 在规模上做未授权的昂贵工作。「一个失控 agent loop 就能把你的毛利蒸发。每个 agent 平台都需要 cost-aware 的编排。Spend alert 来得太晚。」Uber/微软/匿名 $5 亿这一系列教训压缩成一条设计要求：cost-aware 的编排放进 runtime 里，不是事后报警。

💡#27

@petarivanovv9
https://x.com/petarivanovv9/status/2060312956181602753
值得标注的「agent 加测试」陷阱：「当 agent 同时写代码和测试，每多一个接缝就多一个 agent 能同时影响两边的地方。Fine-grained mock 是 agent 宣布胜利最便宜的办法。」自改进循环 + agent 自己写测试 = 优化压力会把两边都推向「哪个信号最便宜就把哪个信号做成 true」。

📡 生态产品雷达

生态产品雷达

evo（alokbishoyi97）——autoresearch 编排器，10K+ 项目，800+ GitHub star，托管基础设施支持 7x24 跑。正在变成「一个 autoresearch 平台长什么样」的标准参考。

AutoScientists（KAIST 及合作机构）——今天开源的去中心化 AI 实验室团队论文。2026 年「没有中央规划器」的多 agent 研究协调的参考实现。

Karpathy autoresearch——一直作为隐含 baseline 被点名，所有其他玩家（evo、GEPA、AutoScientists、SIA）都拿它做对比。这玩意儿正在变成一个名词。

Hermes Agent（Nous Research）——两个月内跨过 9 万 GitHub star。三层 memory、自演化 skill、ICLR 2026 Oral 论文（offline optimization）。AGNT 里上线了原生 sub-agent 集成、Discord VC 语音集成。

OpenClaw——所有 loop 都在它上面搭的 runtime。本周新出的训练侧角度：在 OpenClaw 模拟环境里训练 agent，配合合成真实工作流、轨迹质量评分、端到端 agent RL。

Modiqo / Rote——「捕获成功的 agent 跑批、变成确定性可复用工作流」的新玩家。$3M pre-seed。Agent loop 的可靠性层，不是智商层。

Step 3.7 Flash advisor mode——成本形状的新原语：小执行器跑 loop，前沿模型只在决策点升级。SWE-Bench 76.3% @ $0.19/任务 vs Opus 4.6 78.7% @ $1.76。

ForgeTrain——AI 生成的训练框架，号称比 Megatron 快 10%。值得注意的不是性能，是这个框架本身是被一个自主 agent loop 端到端生产出来的。

Datalayer Polymarket Agents——自主预测市场交易 agent，靠 memory/signal/执行历史自改进。Hyperliquid Agents 下周。

cortextOS（agentic_james）——8 个 Claude Code agent 7x24 swarm + θ 波对抗 sleep 周期。最新鲜的「agent 做梦当 debug 原语」心智模型。

GEPA——一直被作为 autoresearch 的「有原则的替代品」引用。「autoresearch 是穷人版的 GEPA」正在变成这个 trade-off 的口语速记。

← 上一篇

超级用户日报: 2026-05-31

灵感雷达: 2026-05-31

← 返回所有文章

加载中...

Loop 日报: 2026-05-31

相关文章

评论