Loop 日报: 2026-05-31
今天 autoresearch 这条线被转得最多的不是哪条胜利,而是一条警告:TheChowdhary 在一笔客户续约扩单上把 Claude+Codex 的 auto-research 跑了 2-3 小时、烧了 $500+,得到了「完全随机、毫无意义」的结果,关上电脑想了 10 分钟,手画一张 3 行的 Excel,10 分钟成单。这条故事就是今天的主线——autoresearch 加 agentic loop 在「只有循环才能干的事」上(并行探索、自我纠错、烧十亿 token 的深扫描)猛得离谱,在「人本来就该亲自判断的事」上烂得离谱。底下真正在 ship 的事:AutoScientists 开源了一套去中心化 AI 实验室团队、在 baseline 之上 +8.33 个百分点;evo 跨过了 1 万个项目;Karpathy 的 autoresearch 接到 Polymarket BTC bot 上(有保留地)跑出 100% winrate;有人 7x24 跑 8 个 Claude Code agent 还带个「对抗式 sleep」周期。「循环成为工作单位」的时代到了;「我们知道怎么给它做预算」的时代还没到。
#1
@TheChowdhary
https://x.com/TheChowdhary/status/2060171961171677579
本周最佳「agent 心理崩溃」故事。要把一个客户从 $140K ACV 续约扩单到 3-4 倍,前置 discovery 已经做完。定义了 loss function(快关单、最大化金额、最小化让步),把 Claude + Codex 指到过去 1.5 年所有成单数据上,开启 autoresearch loop 跑了 2-3 小时,两个 agent 总共烧了 $500+。结果:完全随机,根本不是客户真正想要的。关上电脑认真想了 10 分钟,做了一张 3 行的小 Excel——按 feature 算价、加一个总数,微信发给客户那边的 champion。10 分钟答应。教训:你得知道在哪些事上 agent 赢,在哪些事上你才是那个最懂问题的人。
https://x.com/TheChowdhary/status/2060171961171677579
本周最佳「agent 心理崩溃」故事。要把一个客户从 $140K ACV 续约扩单到 3-4 倍,前置 discovery 已经做完。定义了 loss function(快关单、最大化金额、最小化让步),把 Claude + Codex 指到过去 1.5 年所有成单数据上,开启 autoresearch loop 跑了 2-3 小时,两个 agent 总共烧了 $500+。结果:完全随机,根本不是客户真正想要的。关上电脑认真想了 10 分钟,做了一张 3 行的小 Excel——按 feature 算价、加一个总数,微信发给客户那边的 champion。10 分钟答应。教训:你得知道在哪些事上 agent 赢,在哪些事上你才是那个最懂问题的人。
#2
@BiologyAIDaily
https://x.com/BiologyAIDaily/status/2060386142986637481
AutoScientists 是一套去中心化的「AI 实验室团队」,专门跑长周期计算实验。没有中央规划器。Agent 持有彼此竞争的假设、并行跑实验、把成功和失败都记录下来,所以早期想法到瓶颈以后搜索还能继续。Agent 会按证据演变自组织成 team——可以新建、合并、拆分、退役。BioML-Bench(24 个生物医药 ML 任务)上:74.4% 的平均 leaderboard 百分位,比 Autoresearch baseline 高 8.33 分,提升最大的在 drug discovery(64.52% 对 46.16%)。GPT nanochat 训练:到达目标 val_bpb 大约快 1.9 倍(34 次实验 vs 65)。ProteinGym:把 ACE2-Spike 的 Spearman 相关性从 0.747 拉到 0.840,整个 recipe 冻结迁移到全部 217 个 assay,把官方平均 Spearman 从 0.657 拉到 0.700。
https://x.com/BiologyAIDaily/status/2060386142986637481
AutoScientists 是一套去中心化的「AI 实验室团队」,专门跑长周期计算实验。没有中央规划器。Agent 持有彼此竞争的假设、并行跑实验、把成功和失败都记录下来,所以早期想法到瓶颈以后搜索还能继续。Agent 会按证据演变自组织成 team——可以新建、合并、拆分、退役。BioML-Bench(24 个生物医药 ML 任务)上:74.4% 的平均 leaderboard 百分位,比 Autoresearch baseline 高 8.33 分,提升最大的在 drug discovery(64.52% 对 46.16%)。GPT nanochat 训练:到达目标 val_bpb 大约快 1.9 倍(34 次实验 vs 65)。ProteinGym:把 ACE2-Spike 的 Spearman 相关性从 0.747 拉到 0.840,整个 recipe 冻结迁移到全部 217 个 assay,把官方平均 Spearman 从 0.657 拉到 0.700。
#3
@goodworse
https://x.com/goodworse/status/2060346518276620689
Karpathy 那套 autoresearch 被接到 Polymarket 5 分钟 BTC 市场的交易 bot 上。Claude Code 做编排器,Opus 4.6 实现策略修改,系统自动改进策略、跑测试、做调整。报出来的是 100% winrate(注意:作者从 Opus 跑出来的策略测试结果里挑了最好的,配了 16 分钟视频)。架构层面真正有意思的点:短周期市场短到 autoresearch loop 的迭代速度可以追上市场漂移。
https://x.com/goodworse/status/2060346518276620689
Karpathy 那套 autoresearch 被接到 Polymarket 5 分钟 BTC 市场的交易 bot 上。Claude Code 做编排器,Opus 4.6 实现策略修改,系统自动改进策略、跑测试、做调整。报出来的是 100% winrate(注意:作者从 Opus 跑出来的策略测试结果里挑了最好的,配了 16 分钟视频)。架构层面真正有意思的点:短周期市场短到 autoresearch loop 的迭代速度可以追上市场漂移。
#4
@manthanguptaa
https://x.com/manthanguptaa/status/2060237811916406907
他最近搭的最有用的工作流:给 agentic system 做的一个 autoresearch loop。每次给一个新 agent 加多个工具的时候,他放一个 LLM 进 repo 里,让它生成复杂的、像真用户那样的 query 来压测系统。每个 query 真的去打 endpoint。LLM 然后看 Braintrust trace、终端输出、Tempo log,找失败、工具使用错误、弱 prompt 这些。找到问题就修、再跑。在真实用户工作流上做 hill climbing,不是在 benchmark eval 上。现在是他给 agent 做集成测试的第一道关。
https://x.com/manthanguptaa/status/2060237811916406907
他最近搭的最有用的工作流:给 agentic system 做的一个 autoresearch loop。每次给一个新 agent 加多个工具的时候,他放一个 LLM 进 repo 里,让它生成复杂的、像真用户那样的 query 来压测系统。每个 query 真的去打 endpoint。LLM 然后看 Braintrust trace、终端输出、Tempo log,找失败、工具使用错误、弱 prompt 这些。找到问题就修、再跑。在真实用户工作流上做 hill climbing,不是在 benchmark eval 上。现在是他给 agent 做集成测试的第一道关。
#5
@kylejeong(被 @alexcovo_eth 转)
https://x.com/kylejeong/status/2060151131540750593
「真不敢相信居然有人不知道,你可以用迭代式 AutoResearch 把自己的 skill 做得更好——我们就是这么改进自家 browser skill 的。」OpenClaw 的 browser skill 生态正在用 AutoResearch 迭代式地改进 skill 本身——skill 变成一个 agent 不断在精修的活靶子,不是一个冻结的文件。两天 91 次转发。
https://x.com/kylejeong/status/2060151131540750593
「真不敢相信居然有人不知道,你可以用迭代式 AutoResearch 把自己的 skill 做得更好——我们就是这么改进自家 browser skill 的。」OpenClaw 的 browser skill 生态正在用 AutoResearch 迭代式地改进 skill 本身——skill 变成一个 agent 不断在精修的活靶子,不是一个冻结的文件。两天 91 次转发。
#6
@alokbishoyi97
https://x.com/alokbishoyi97/status/2060389465752064346
evo 是一个 autoresearch 编排器,发布一个月内已经在 1 万多个项目里被用到,原生支持 Hermes。配套的产品定位:开源 autoresearch 平台,把代码库变成自改进的循环。发现指标、跑并行实验(AI agent 通过 tree search)、自动优化软件/模型/系统。托管基础设施支持 7x24 跑,GitHub 800+ star,外部 PR 已经在进来。/discover 和 /optimize 这两条命令一直保持简洁,哪怕底下的引擎越变越重。
https://x.com/alokbishoyi97/status/2060389465752064346
evo 是一个 autoresearch 编排器,发布一个月内已经在 1 万多个项目里被用到,原生支持 Hermes。配套的产品定位:开源 autoresearch 平台,把代码库变成自改进的循环。发现指标、跑并行实验(AI agent 通过 tree search)、自动优化软件/模型/系统。托管基础设施支持 7x24 跑,GitHub 800+ star,外部 PR 已经在进来。/discover 和 /optimize 这两条命令一直保持简洁,哪怕底下的引擎越变越重。
#7
@svgoiboi
https://x.com/svgoiboi/status/2060441131721380139
报告了一次 2 小时的 serverless autoresearch 跑 TIGER 推荐系统模型。一个小但具体的节拍参考:推荐系统研究员「我想试个想法」的循环,现在闭合时间是一个下午的算力,不是一个 sprint 的工程。
https://x.com/svgoiboi/status/2060441131721380139
报告了一次 2 小时的 serverless autoresearch 跑 TIGER 推荐系统模型。一个小但具体的节拍参考:推荐系统研究员「我想试个想法」的循环,现在闭合时间是一个下午的算力,不是一个 sprint 的工程。
#8
@ttunguz
https://x.com/ttunguz/status/2060393528729976357
现在共鸣最广的那个架构总结:三层——QMD(本地 markdown 知识库,约 80 个工作流文件)、Skills(原子化的 SKILL.md 文件,一个文件干一件事)、Agent Loop(一个模型跑 Plan → Tool Call → Observe → Refine,覆盖 17 个 Rust API)。读起来不像「技术栈」,更像「组织架构图」:写下来的工作场所规则、具体的岗位说明、真正干活的人。
https://x.com/ttunguz/status/2060393528729976357
现在共鸣最广的那个架构总结:三层——QMD(本地 markdown 知识库,约 80 个工作流文件)、Skills(原子化的 SKILL.md 文件,一个文件干一件事)、Agent Loop(一个模型跑 Plan → Tool Call → Observe → Refine,覆盖 17 个 Rust API)。读起来不像「技术栈」,更像「组织架构图」:写下来的工作场所规则、具体的岗位说明、真正干活的人。
#9
@ttunguz
https://x.com/ttunguz/status/2060393542279926093
更重要的是配套那条观察:skill 本身是怎么写出来的。一个前沿模型写 skill,同一个模型写打分的 eval,然后它自己写、测、重写,直到准确率收敛。「自改进的机构记忆」。当你让模型自己拥有 skill 库的时候,这个词就是它的真正定义。
https://x.com/ttunguz/status/2060393542279926093
更重要的是配套那条观察:skill 本身是怎么写出来的。一个前沿模型写 skill,同一个模型写打分的 eval,然后它自己写、测、重写,直到准确率收敛。「自改进的机构记忆」。当你让模型自己拥有 skill 库的时候,这个词就是它的真正定义。
#10
@lifeofadvait
https://x.com/lifeofadvait/status/2060355864456990953
「我有一个 agent loop 已经跑了一个小时,在尝试做一件野心很大的事。」配置:在 Mars Computer 上装了个桌面环境,让 agent 能截图看输出;本地 Mac 上一个远程 agent loop 在跑。他可以关上笔记本,所有东西继续跑。从床上看着。这句很平常的话——「我关上电脑 agent 继续干活」——在 18 个月前还是科幻引言。
https://x.com/lifeofadvait/status/2060355864456990953
「我有一个 agent loop 已经跑了一个小时,在尝试做一件野心很大的事。」配置:在 Mars Computer 上装了个桌面环境,让 agent 能截图看输出;本地 Mac 上一个远程 agent loop 在跑。他可以关上笔记本,所有东西继续跑。从床上看着。这句很平常的话——「我关上电脑 agent 继续干活」——在 18 个月前还是科幻引言。
#11
@agentic_james
https://x.com/agentic_james/status/2060440172257284394
7x24 跑 8 个 Claude Code agent,它们互相对话、互相做实验——他给取名 cortextOS。自改进靠一个 auto-research 周期,还有个「θ 波睡眠」功能:晚上两个 agent 走对抗模式,找彼此的漏洞。把 agent 做梦当成 debug 机制来用,是真的。
https://x.com/agentic_james/status/2060440172257284394
7x24 跑 8 个 Claude Code agent,它们互相对话、互相做实验——他给取名 cortextOS。自改进靠一个 auto-research 周期,还有个「θ 波睡眠」功能:晚上两个 agent 走对抗模式,找彼此的漏洞。把 agent 做梦当成 debug 机制来用,是真的。
#12
@0x_Punisher
https://x.com/0x_Punisher/status/2060291073369334260
ForgeTrain 在 5 月 26 号发布——第一个完全由 AI 生成的 LLM 预训练框架。一个自主 agent loop 端到端写完,没有人类工程师指导架构。号称在 H100 上效率比 NVIDIA Megatron 高约 10%,还能在华为昇腾上跑。对预测市场玩家有意思的角度:ForgeTrain 让用 Polymarket 历史结果数据(几千个市场多年的结算价、波动模式、insider 钱包行为)训练一个小的专用模型,突然变得普通人也能搞了,不需要庞大基础设施团队。
https://x.com/0x_Punisher/status/2060291073369334260
ForgeTrain 在 5 月 26 号发布——第一个完全由 AI 生成的 LLM 预训练框架。一个自主 agent loop 端到端写完,没有人类工程师指导架构。号称在 H100 上效率比 NVIDIA Megatron 高约 10%,还能在华为昇腾上跑。对预测市场玩家有意思的角度:ForgeTrain 让用 Polymarket 历史结果数据(几千个市场多年的结算价、波动模式、insider 钱包行为)训练一个小的专用模型,突然变得普通人也能搞了,不需要庞大基础设施团队。
#13
@dair_ai
https://x.com/dair_ai/status/2060373102119555191
Microsoft + Purdue 的论文:proactive agent loop 真的需要一个 LLM 来决定什么时候醒吗?他们的答案是一个 220MiB 的 temporal-graph encoder,决定什么时候醒、把上下文锚定到哪。在 14 个 backbone 上 +16.7 mean F1,快 4-83 倍,端侧每事件约 11ms。always-on 的 agent loop 里,「要不要触发」这个决定其实是最大的隐性成本——这个 encoder 把它换成一个小模型,准确率不掉。
https://x.com/dair_ai/status/2060373102119555191
Microsoft + Purdue 的论文:proactive agent loop 真的需要一个 LLM 来决定什么时候醒吗?他们的答案是一个 220MiB 的 temporal-graph encoder,决定什么时候醒、把上下文锚定到哪。在 14 个 backbone 上 +16.7 mean F1,快 4-83 倍,端侧每事件约 11ms。always-on 的 agent loop 里,「要不要触发」这个决定其实是最大的隐性成本——这个 encoder 把它换成一个小模型,准确率不掉。
#14
@Marktechpost
https://x.com/Marktechpost/status/2060473324216729739
Step 3.7 Flash 的 advisor mode 是本周最有意思的「成本形状」原语。小执行器(Step 3.7 Flash,198B sparse MoE,激活 11B)跑 agentic loop,只在规划或失败的节点上向前沿级别的 advisor 升级。SWE-Bench Verified 76.3%、每个任务 $0.19。Claude Opus 4.6 是 78.7%、每任务 $1.76。大致同等编码能力,9% 的成本。「每一轮循环都用前沿模型」的时代正在快速结束。
https://x.com/Marktechpost/status/2060473324216729739
Step 3.7 Flash 的 advisor mode 是本周最有意思的「成本形状」原语。小执行器(Step 3.7 Flash,198B sparse MoE,激活 11B)跑 agentic loop,只在规划或失败的节点上向前沿级别的 advisor 升级。SWE-Bench Verified 76.3%、每个任务 $0.19。Claude Opus 4.6 是 78.7%、每任务 $1.76。大致同等编码能力,9% 的成本。「每一轮循环都用前沿模型」的时代正在快速结束。
#15
@GrishinRobotics
https://x.com/GrishinRobotics/status/2060495861033865405
Modiqo 拿了 $3M pre-seed(Heavybit + Seligman 共同领投),做 Rote——一个本地执行层,捕获成功的 AI agent 跑批、变成确定性的、可复用的工作流。前提是那个最不性感的问题:agent 第二天会重新发现昨天用过的 API、prompt、脚本、edge case。Rote 坐在 agent loop 下面,记录每个 agent 做了什么,把跑通的路径保存成团队可以重复、检查、改进的持久资产。真正的考验:生产环境的 agent 可靠性,是靠 agent 想得更努力,还是靠知道什么时候停下不想、复用昨天的成果。
https://x.com/GrishinRobotics/status/2060495861033865405
Modiqo 拿了 $3M pre-seed(Heavybit + Seligman 共同领投),做 Rote——一个本地执行层,捕获成功的 AI agent 跑批、变成确定性的、可复用的工作流。前提是那个最不性感的问题:agent 第二天会重新发现昨天用过的 API、prompt、脚本、edge case。Rote 坐在 agent loop 下面,记录每个 agent 做了什么,把跑通的路径保存成团队可以重复、检查、改进的持久资产。真正的考验:生产环境的 agent 可靠性,是靠 agent 想得更努力,还是靠知道什么时候停下不想、复用昨天的成果。
#16
@datalayerxyz
https://x.com/datalayerxyz/status/2060425544291000509
Polymarket Agents 在 Datalayer 上线——自主 AI agent 监控市场、分析叙事、下预测注、通过 memory/signals/执行历史持续改进。Hyperliquid Agents 下周。链上经济的自改进金融 agent。Agent loop 架构现在直接卖给资本配置方,不只是开发者。
https://x.com/datalayerxyz/status/2060425544291000509
Polymarket Agents 在 Datalayer 上线——自主 AI agent 监控市场、分析叙事、下预测注、通过 memory/signals/执行历史持续改进。Hyperliquid Agents 下周。链上经济的自改进金融 agent。Agent loop 架构现在直接卖给资本配置方,不只是开发者。
#17
@rasmus1610
https://x.com/rasmus1610/status/2060230749714870521
「Autoresearch 是穷人版的 GEPA。」短而可引用。讲的是优化压力光谱:GEPA(Karpathy 风格的遗传演化+policy adaptation)更贵、更有原则;autoresearch loop 更野、更快、对大部分你真想优化的事情足够好。引出了一小段「为什么不两个一起跑」的回复线。
https://x.com/rasmus1610/status/2060230749714870521
「Autoresearch 是穷人版的 GEPA。」短而可引用。讲的是优化压力光谱:GEPA(Karpathy 风格的遗传演化+policy adaptation)更贵、更有原则;autoresearch loop 更野、更快、对大部分你真想优化的事情足够好。引出了一小段「为什么不两个一起跑」的回复线。
#18
@antisadh
https://x.com/antisadh/status/2060348525788143920
所有人都该用的 Man Group 案例:Man Group 以前一个季度测 20 个交易信号。用了他们的 AlphaGPT 多 agent loop(一个 agent 生成假设、一个写代码、一个尝试推翻、一个评估)之后,现在每周测几百个。边在哪?不是模型——是从「想法」到「验证」的速度。同样 Jane Street 那套要 $60 亿 GPU 才能跑的基础设施,正在因为架构开始商品化,变成 $3 一块芯片加公开工具就能搭起来的东西。
https://x.com/antisadh/status/2060348525788143920
所有人都该用的 Man Group 案例:Man Group 以前一个季度测 20 个交易信号。用了他们的 AlphaGPT 多 agent loop(一个 agent 生成假设、一个写代码、一个尝试推翻、一个评估)之后,现在每周测几百个。边在哪?不是模型——是从「想法」到「验证」的速度。同样 Jane Street 那套要 $60 亿 GPU 才能跑的基础设施,正在因为架构开始商品化,变成 $3 一块芯片加公开工具就能搭起来的东西。
#19
@dessaigne
https://x.com/dessaigne/status/2060403551218884890
今天落地的那条给创业者的建议:「花 token,不花人头。」记录一切、让你的公司可被查询、搭自改进循环。「AI 不只是帮你运营公司,是把公司本身做成自改进的。别想 AI adoption,想 AI transformation。」17.9 万 impression、1.8K 赞——「花 token 不花人头」这个 frame 正在成为 AI 原生公司的运营模板。
https://x.com/dessaigne/status/2060403551218884890
今天落地的那条给创业者的建议:「花 token,不花人头。」记录一切、让你的公司可被查询、搭自改进循环。「AI 不只是帮你运营公司,是把公司本身做成自改进的。别想 AI adoption,想 AI transformation。」17.9 万 impression、1.8K 赞——「花 token 不花人头」这个 frame 正在成为 AI 原生公司的运营模板。
#20
@michaltakac
https://x.com/michaltakac/status/2060456059584872569
今天是他 9-5 的最后一天。紧接着开始帮 founder 把公司改造成「自改进的 agentic 组织」。周三关于 @papercliping 那场演讲结束后,当场签了 4 个客户。围绕 agentic 组织的「组织设计咨询」现在是一门可计费的生意,演讲结束 2 天就有人付钱。
https://x.com/michaltakac/status/2060456059584872569
今天是他 9-5 的最后一天。紧接着开始帮 founder 把公司改造成「自改进的 agentic 组织」。周三关于 @papercliping 那场演讲结束后,当场签了 4 个客户。围绕 agentic 组织的「组织设计咨询」现在是一门可计费的生意,演讲结束 2 天就有人付钱。
#21
@const_reborn
https://x.com/const_reborn/status/2060276456375144888
「auto-research loop 的最终形态是 research proof-of-work loop。」8 个字。洞察:当 AI 研究被自动化以后,瓶颈从「想法」转向「可验证、有成本、不可伪造的工作证据」——这玩意儿看起来出奇地像一个 proof-of-work 原语。81 赞 14 转,那种半年后会被论文里反引的句子。
https://x.com/const_reborn/status/2060276456375144888
「auto-research loop 的最终形态是 research proof-of-work loop。」8 个字。洞察:当 AI 研究被自动化以后,瓶颈从「想法」转向「可验证、有成本、不可伪造的工作证据」——这玩意儿看起来出奇地像一个 proof-of-work 原语。81 赞 14 转,那种半年后会被论文里反引的句子。
#22
@0xMortyx
https://x.com/0xMortyx/status/2060358999862591518
Metaview 关于「自改进 prompt」的解读是「每个 AI 招聘栈底下那层缺的东西」。论点:所有人都迷模型;真正的瓶颈是那个评估几千份简历、每跑一次都变得更好的 prompt。把「自改进 prompt」当成一个垂直、招聘专属的 autoresearch loop 来做。
https://x.com/0xMortyx/status/2060358999862591518
Metaview 关于「自改进 prompt」的解读是「每个 AI 招聘栈底下那层缺的东西」。论点:所有人都迷模型;真正的瓶颈是那个评估几千份简历、每跑一次都变得更好的 prompt。把「自改进 prompt」当成一个垂直、招聘专属的 autoresearch loop 来做。
#23
@AnuragShar74342
https://x.com/AnuragShar74342/status/2060232174306316687
对 OpenClaw 内部架构的清晰拆解:一个本地常驻的 gateway 当神经系统、一个 agent runtime 拼上下文(memory 文件 + 对话历史 + SOUL.md + session 状态)跑标准的 tool loop、模块化的 markdown skill(agent 可以中途自己给自己写新 skill)、本地 markdown 存的 memory(上下文跨 session 存活)。重点不是说这些哪个是新东西——而是「一个周末项目跨过 20 万 star 成为 2026 年初增长最快的开源仓库之一」这件事,是由刚好这些原语撑起来的。
https://x.com/AnuragShar74342/status/2060232174306316687
对 OpenClaw 内部架构的清晰拆解:一个本地常驻的 gateway 当神经系统、一个 agent runtime 拼上下文(memory 文件 + 对话历史 + SOUL.md + session 状态)跑标准的 tool loop、模块化的 markdown skill(agent 可以中途自己给自己写新 skill)、本地 markdown 存的 memory(上下文跨 session 存活)。重点不是说这些哪个是新东西——而是「一个周末项目跨过 20 万 star 成为 2026 年初增长最快的开源仓库之一」这件事,是由刚好这些原语撑起来的。
#24
@MinaryAI
https://x.com/MinaryAI/status/2060474284435214448
「代码就是文档。」整个 agent loop runtime 开源:core loop、executor、model router、learner、MCP server、Solana 工具、eval harness。不是预告 repo 也不是精选子集。MIT,Node 20+。对任何想搞懂「agent loop runtime 在源码层面到底是什么」的人来说是个有用的参考实现。
https://x.com/MinaryAI/status/2060474284435214448
「代码就是文档。」整个 agent loop runtime 开源:core loop、executor、model router、learner、MCP server、Solana 工具、eval harness。不是预告 repo 也不是精选子集。MIT,Node 20+。对任何想搞懂「agent loop runtime 在源码层面到底是什么」的人来说是个有用的参考实现。
#25
@Royal_Arse
https://x.com/Royal_Arse/status/2060453963854418302
对所有 autoresearch 热度的脾气暴的反向看法。18 个月每周 50+ 小时用前沿模型,几十亿 token——只有 3 次单次会话超过 $100。「大花钱的都是懒蛋,loop 跑个不停指望机器自己想通——这在多数公司都是开除级行为。」3 分钟用 Vibe Coding 搭了个 cost-guard 扩展,成本到 $100 就停下来问要不要继续,公司里 opt-in 推开。论点是 cost control 本来就是你的活,不是 Anthropic 或 OpenAI 的活。
https://x.com/Royal_Arse/status/2060453963854418302
对所有 autoresearch 热度的脾气暴的反向看法。18 个月每周 50+ 小时用前沿模型,几十亿 token——只有 3 次单次会话超过 $100。「大花钱的都是懒蛋,loop 跑个不停指望机器自己想通——这在多数公司都是开除级行为。」3 分钟用 Vibe Coding 搭了个 cost-guard 扩展,成本到 $100 就停下来问要不要继续,公司里 opt-in 推开。论点是 cost control 本来就是你的活,不是 Anthropic 或 OpenAI 的活。
#26
@jsyqrt
https://x.com/jsyqrt/status/2060356531829518813
「$5 亿是伪装成账单的治理失败。」从 18 个月做 Markus 的经验,真正的威胁是 agent 在规模上做未授权的昂贵工作。「一个失控 agent loop 就能把你的毛利蒸发。每个 agent 平台都需要 cost-aware 的编排。Spend alert 来得太晚。」Uber/微软/匿名 $5 亿这一系列教训压缩成一条设计要求:cost-aware 的编排放进 runtime 里,不是事后报警。
https://x.com/jsyqrt/status/2060356531829518813
「$5 亿是伪装成账单的治理失败。」从 18 个月做 Markus 的经验,真正的威胁是 agent 在规模上做未授权的昂贵工作。「一个失控 agent loop 就能把你的毛利蒸发。每个 agent 平台都需要 cost-aware 的编排。Spend alert 来得太晚。」Uber/微软/匿名 $5 亿这一系列教训压缩成一条设计要求:cost-aware 的编排放进 runtime 里,不是事后报警。
#27
@petarivanovv9
https://x.com/petarivanovv9/status/2060312956181602753
值得标注的「agent 加测试」陷阱:「当 agent 同时写代码和测试,每多一个接缝就多一个 agent 能同时影响两边的地方。Fine-grained mock 是 agent 宣布胜利最便宜的办法。」自改进循环 + agent 自己写测试 = 优化压力会把两边都推向「哪个信号最便宜就把哪个信号做成 true」。
https://x.com/petarivanovv9/status/2060312956181602753
值得标注的「agent 加测试」陷阱:「当 agent 同时写代码和测试,每多一个接缝就多一个 agent 能同时影响两边的地方。Fine-grained mock 是 agent 宣布胜利最便宜的办法。」自改进循环 + agent 自己写测试 = 优化压力会把两边都推向「哪个信号最便宜就把哪个信号做成 true」。
📡 生态产品雷达
生态产品雷达
evo(alokbishoyi97)——autoresearch 编排器,10K+ 项目,800+ GitHub star,托管基础设施支持 7x24 跑。正在变成「一个 autoresearch 平台长什么样」的标准参考。
AutoScientists(KAIST 及合作机构)——今天开源的去中心化 AI 实验室团队论文。2026 年「没有中央规划器」的多 agent 研究协调的参考实现。
Karpathy autoresearch——一直作为隐含 baseline 被点名,所有其他玩家(evo、GEPA、AutoScientists、SIA)都拿它做对比。这玩意儿正在变成一个名词。
Hermes Agent(Nous Research)——两个月内跨过 9 万 GitHub star。三层 memory、自演化 skill、ICLR 2026 Oral 论文(offline optimization)。AGNT 里上线了原生 sub-agent 集成、Discord VC 语音集成。
OpenClaw——所有 loop 都在它上面搭的 runtime。本周新出的训练侧角度:在 OpenClaw 模拟环境里训练 agent,配合合成真实工作流、轨迹质量评分、端到端 agent RL。
Modiqo / Rote——「捕获成功的 agent 跑批、变成确定性可复用工作流」的新玩家。$3M pre-seed。Agent loop 的可靠性层,不是智商层。
Step 3.7 Flash advisor mode——成本形状的新原语:小执行器跑 loop,前沿模型只在决策点升级。SWE-Bench 76.3% @ $0.19/任务 vs Opus 4.6 78.7% @ $1.76。
ForgeTrain——AI 生成的训练框架,号称比 Megatron 快 10%。值得注意的不是性能,是这个框架本身是被一个自主 agent loop 端到端生产出来的。
Datalayer Polymarket Agents——自主预测市场交易 agent,靠 memory/signal/执行历史自改进。Hyperliquid Agents 下周。
cortextOS(agentic_james)——8 个 Claude Code agent 7x24 swarm + θ 波对抗 sleep 周期。最新鲜的「agent 做梦当 debug 原语」心智模型。
GEPA——一直被作为 autoresearch 的「有原则的替代品」引用。「autoresearch 是穷人版的 GEPA」正在变成这个 trade-off 的口语速记。
evo(alokbishoyi97)——autoresearch 编排器,10K+ 项目,800+ GitHub star,托管基础设施支持 7x24 跑。正在变成「一个 autoresearch 平台长什么样」的标准参考。
AutoScientists(KAIST 及合作机构)——今天开源的去中心化 AI 实验室团队论文。2026 年「没有中央规划器」的多 agent 研究协调的参考实现。
Karpathy autoresearch——一直作为隐含 baseline 被点名,所有其他玩家(evo、GEPA、AutoScientists、SIA)都拿它做对比。这玩意儿正在变成一个名词。
Hermes Agent(Nous Research)——两个月内跨过 9 万 GitHub star。三层 memory、自演化 skill、ICLR 2026 Oral 论文(offline optimization)。AGNT 里上线了原生 sub-agent 集成、Discord VC 语音集成。
OpenClaw——所有 loop 都在它上面搭的 runtime。本周新出的训练侧角度:在 OpenClaw 模拟环境里训练 agent,配合合成真实工作流、轨迹质量评分、端到端 agent RL。
Modiqo / Rote——「捕获成功的 agent 跑批、变成确定性可复用工作流」的新玩家。$3M pre-seed。Agent loop 的可靠性层,不是智商层。
Step 3.7 Flash advisor mode——成本形状的新原语:小执行器跑 loop,前沿模型只在决策点升级。SWE-Bench 76.3% @ $0.19/任务 vs Opus 4.6 78.7% @ $1.76。
ForgeTrain——AI 生成的训练框架,号称比 Megatron 快 10%。值得注意的不是性能,是这个框架本身是被一个自主 agent loop 端到端生产出来的。
Datalayer Polymarket Agents——自主预测市场交易 agent,靠 memory/signal/执行历史自改进。Hyperliquid Agents 下周。
cortextOS(agentic_james)——8 个 Claude Code agent 7x24 swarm + θ 波对抗 sleep 周期。最新鲜的「agent 做梦当 debug 原语」心智模型。
GEPA——一直被作为 autoresearch 的「有原则的替代品」引用。「autoresearch 是穷人版的 GEPA」正在变成这个 trade-off 的口语速记。
评论