2026年5月14日loop

Loop 日报: 2026-05-15

💡#1

5月13日是 Karpathy 那套 autoresearch 框架悄悄出圈的一天。"把 agent 指向一个可测量目标，让它提变体、留下涨点的、回滚没用的、一格一格往上爬"的范式，今天在 5 个不同名字下出现：autoresearch、agentic loop、agent loop、/goal mode、Ralph loop。改名不是重点，重点是同一个循环这周同时在啃 ML 研究、商业决策、预测市场、安全审计、运营分析。下面是这周大家真的拿它干出来的事。

💡#2

@vesslai
https://x.com/vesslai/status/2054713187598307764
在 VESSL Cloud Job + CLI 上跑了 Karpathy autoresearch 的基准测试。同一块 H100，同样 $5.28 账单，跑出 val_bpb 0.9856 vs Karpathy 参考结果 0.9979，更好。实验时间从顺序 2 小时压到并行 40 分钟。这是回答"autoresearch 到底是不是真的"的关键数据点——同硬件、同钱、更好结果、更快时间。

💡#3

@MajorTimbWlf21
https://x.com/MajorTimbWlf21/status/2054440847459139721
在 CAISc autoresearch workshop（5 月 21 日线上）做报告，专门反对"agent 不能做科学"那种万年角度。他和其他人一直在用 autoresearch 跑神经启发 ML 的真实研究，他这次想把"什么真正能跑通"讲一遍。他把这件事当成"真的是未来"在做，不是表演。

💡#4

@lossfunk
https://x.com/lossfunk/status/2054433078861611457
CAISc 2026 投稿延期到 5 月 30 日，新开三个会前研讨会，覆盖 LLM 自动化科学的三种具体路径：领域专用的 agent skill、autoresearch 循环、端到端研究项目的 agentic coding。讲者分别是 Dhyuti Labs 的 Rahul Sundar、扩展 Karpathy autoresearch 做神经启发 ML 的 Timb Wolf、用 autovoila 跑 CLI agent 研究的 Paras Chopra。这是目前学术圈最系统的 autoresearch 课程化尝试。

💡#5

@leo_liuye
https://x.com/leo_liuye/status/2054563111181680870
把 Karpathy autoresearch 那套代码循环原封不动搬到商业决策上。Agent 提一个策略，拿过去两年公司数据回测，过夜迭代。早上起来 agent 抓到一个定价异常，价值 6 位数美元。他把这件事叫做"SETI@home for operations"——一个 CFO 水平的机器在你睡觉的时候跑。

💡#6

@__marmikpandya
https://x.com/__marmikpandya/status/2054476689149927721
做的产品叫 Pepper，定位"engineering 商业流程的 IDE"——multi-agent swarm + Karpathy 式 autoresearch 优化，目标是任何商业指标。具体例子：优化激活率。Pepper 自主跑 onboarding 实验，改代码 + 长期监控。同一个 primitive，只是把模型架构换成了转化漏斗。

💡#7

@aeonframework
https://x.com/aeonframework/status/2054540257295548478
Aeon 把 24 个 skill 集成进了 bankrbot 钱包。撇开 crypto 包装，两个真值得看的：autoresearch 作为一个可运行的 skill 会自动升级你装的其它 skill（生成 4 个变体、挑最优、永不变差）；skill security scan 在你跑 skill 之前先审计（识别恶意代码、隐藏 unicode、秘密外泄）。autoresearch 这个东西从论文到钱包里可一键安装的 skill，花了大概 6 周。

💡#8

@ChrisHayduk
https://x.com/ChrisHayduk/status/2054400729708654608
一个实操者同时用两种 agent loop 范式。autoresearch 路线跑在他的蛋白结构预测模型副业上；Ralph loop 跑在他的本职工作上实现 PRD 和执行计划。分工特别清楚——目标可测量、搜索空间巨大就用 autoresearch；spec 是约束、agent 只需要"打到完成"就用 Ralph loop。

💡#9

@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2054410511127597115
"每次有空闲算力，我就跑 autoresearch loop 调 eval 的 config。" 这就是"任何一个团队的过夜 GPU 闲置算力会怎么被花掉"的 one-liner。闲置算力变成研究预算，agent 当夜班研究员。

💡#10

@FormTalker
https://x.com/FormTalker/status/2054668529723703621
引用了两个 autoresearch 具体结果：Karpathy 那个 loop 两天跑了 700 个实验，把学习速度提了 11%；Shopify CEO 在自己业务上独立验证，一夜性能 +19%。数字本身不是最大看点，时间尺度才是——"睡觉时变好"现在是运营常态，不再是营销话术。

💡#11

@JeremyNguyenPhD
https://x.com/JeremyNguyenPhD/status/2053082260132573517
引用明尼苏达大学 Jie Ding 教授原话："我把三个 AI agent 留在一个研究问题里过夜，回来时它们带回了 72 篇同行评审论文。" Ding 把 Autoresearch 和 WorldSeed 开源了，agent 用嘴说就能组合。这是私有实验室在自己集群里干的事，在学术侧的同步证据点。

💡#12

@IAmSandroSaric
https://x.com/IAmSandroSaric/status/2054672335291212214
这是 agentic loop autoresearch 给普通人写得最清楚的一份说明。四步：把 starter 仓库 clone 到你项目目录边上、量一个数、写 program.md 告诉 agent 该试什么以及不能动什么、然后 let it rip。具体示例：把 SaaS 仪表盘的 JS bundle 从 780 KB 砍到 500 KB 以下，你出去抽根烟就行。他点名了最常见的坑——如果你不写 constraints 那一节，"agent 会做任何它想做的事"。这套适用于落地页、外联文案、任何有可测量结果的场景。

💡#13

@its_brill_
https://x.com/its_brill_/status/2054636613154767324
在 brillbet 这个体育预测产品上跑 autoresearch loop：原始数据进来，引擎决定测什么组合，结果走 autoresearch loop 判断组合是否真能预测比赛结果。最值得抄的工作流细节：让 Codex 把整套系统渲染成 HTML 而不是文本，因为"如果答案文本难懂，不要要求更好的文本，要求更好的呈现界面"。这是非工程师在循环外面 prompt，不是在循环里面操作。

💡#14

@palqa_
https://x.com/palqa_/status/2054626601258643842
长 agent loop 的具体成本数字：30 步的 agent loop，Opus 跑一次 ~$24，Kimi 2.6 ~$1.40，绝大多数 coding 任务"输出质量几乎相同"。他的路由建议：架构用 Opus、正经实现用 Kimi、清理用 Haiku、自动补全用本地模型。重构 500 行文件——Sonnet $0.12 vs Kimi 2.6 $0.04。在 6 月 15 日 SDK 额度上线之前，这个表值得截图。

💡#15

@iamkunhello
https://x.com/iamkunhello/status/2054425049239879685
同一个话题的反方提醒。"一个坏掉的 agent loop 能烧掉 $10k+。真实案例：49 个并行子任务、2.5 小时、$8k–$15k。不是 bug，是数学。" 200K context 是"桌面，不是大脑"——掉下去的东西就没了，但你每轮都为它付钱。

💡#16

@JustAnotherPM
https://x.com/JustAnotherPM/status/2054546468955148776
真实事故：一个开发者让 Claude Code 在没有 guardrail 的情况下跑生产数据库，全删了。他给的 5 分钟三 hook 配置是关键：PreToolUse hook 拦截任何对生产表的 DROP/DELETE/TRUNCATE；PostToolUse hook 在写入部署目录后自动跑测试；SessionStart hook 拒绝任何动到项目目录外的 prompt。"hook 在 agent loop 之外跑、它们是确定性的、模型不能 override。" 这是大多数团队 ship agent 时根本没装的安全层。

💡#17

@MindTheGapMTG
https://x.com/MindTheGapMTG/status/2054624155618738560
针对 Notion / Make / n8n 那种"在 UI 里编排 agent"叙事的反击。"UI 里的编排在凌晨 3 点没人看的时候就崩了。生产级 agent 需要 heartbeat 周期、有作用域的文件权限、CLI 恢复工具。数据库 view 做 demo 很好，但 debug'agent loop 为什么在一次幻觉里烧了 4 万 token'就特别痛苦。"

💡#18

@bettercallsalva
https://x.com/bettercallsalva/status/2054664488213688794
对 /goal 最诚实的评价：感觉就是论文里两年前描述的那个 agent loop，终于能用了。但前提也是杠杆——只有你的测试和 lint 信号够紧，agent 才会真完成；信号松了，agent 觉得自己完成了，但 build 静默失败。紧的反馈信号是前提，不是加分项。

💡#19

@_michaelmoreira
https://x.com/_michaelmoreira/status/2054529169166393441
在 CI 工作流里把 agentic loop 闭合：agent 提交代码 → pipeline 挂了 → 自动 heal 在 30 秒内开了一个修复 PR → 在 Claude Code 里跑 `floweasy status` 拿到状态。部署本身不性感，但整条生产 loop 该有的零件都接齐了——故障检测、自主修复、人类可读状态，全部通过 MCP 串起来。

💡#20

@simulx4
https://x.com/simulx4/status/2054659480034644301
长上下文 agent loop 的真实经济学。Codex CLI 能直接绑到 Cloudflare 的 Qwen3 部署上，输入 100 万 token 收 $0.05。如果你需要 agent 在 loop 里看一百万 token 然后做个判断，现在 5 分钱搞定。订阅 API loop 和开源 weight 推理 loop 之间的套利空间还在变宽。

💡#21

@ozkatz100
https://x.com/ozkatz100/status/2054652225553666229
Tilde 把 Google Drive 加成了一等数据源。把 Tilde 指向某个 Drive 目录，agent 就能像访问本地磁盘一样读 PDF、幻灯片、文档、图片、视频——不需要 SDK，不需要在 agent loop 里处理 auth，不需要 glue 代码。这种没什么戏剧性的基础设施，恰恰是把"我的 agent 不知道我公司真正的文件"从一个问题变成非问题的关键。

💡#22

@LangChain_OSS
https://x.com/LangChain_OSS/status/2054641656222388700
LangChain 这周一口气发了：按模型调参的 harness profile（支持 Kimi、Qwen、DeepSeek）、agent loop 内部可编程的 code interpreter、给 agent 做 checkpoint 的 DeltaChannel、存 skill/policy/memory 的 ContextHubBackend。loop 里塞 code interpreter 这一块尤其重要——它能替代用户自己手搓的 80% 的自定义工具。

💡#23

@om_patel5
https://x.com/om_patel5/status/2054401992642936843
agent loop 在没有人 curate 时会变成什么的反面教科书。继承了一个 3 个月的后端，前团队把它捧成"advanced agentic engineering"——220 个路由（只用了 20 个）、30.9 万行代码、24 万行自动生成文档、100 万行 agent 日志躺在 markdown 里。loop 跑了，loop 只是跑出了一堆没人要的功能。他用 Claude Code 一周重写完整个项目，功能不变 + 真正架构 + 真正集成测试。教训是"品味问题"不是"编排问题"：agent loop 产出大量东西，绝大多数都不是能 ship 的软件。

💡#24

@AdeCubedinc
https://x.com/AdeCubedinc/status/2054510844436709766
对"一周重写"叙事最锋利的反驳。"一个没有人在做 aggressive cherry pick 的 agent loop，会在你需要 20 个 route 的时候产出 220 个。这不是编排问题，这是品味问题。" 那个一周重写之所以成立，是因为第一版的烂代码先把'要做什么'探索清楚了。agent loop 操作者真正要回答的不是"更多 loop 还是更少 loop"——是"谁在决定什么东西 ship"。

💡#25

@cantinasecurity
https://x.com/cantinasecurity/status/2054591347873681882
Cantina 的自主 AppSec agent Apex 在苹果昨天发布的 WebKit 补丁里贡献了三个发现，包括一个 13 年的历史 bug。三个里面两个是 CSP 绕过。这家公司卖的不是"更好的 fuzzer"——卖的是"一个 agent loop 配上对的工具，能扫 WebKit 这种规模的代码库，速度比人工 review 快得多。" 安全研究现在是一个 autoresearch 子领域。

💡#26

@Ternoa_
https://x.com/Ternoa_/status/2054399741233160368
Ternoa 给 Hermes Agent 上线了 TIP Verify。跑 Hermes 的人现在可以验证本地安装跟登记在 Ternoa zkEVM 链上的源码 snapshot 完全一致，完整 manifest 存在 IPFS 上。AI agent 生态的供应链攻击越来越多（看同一天 Claude Code 圈那个 Shai-Hulud 攻击），这是缺位最久的 primitive——你正在跑的 agent 代码就是你以为的那份代码，链上可证明。

💡#27

@0gclawforge
https://x.com/0gclawforge/status/2054515373584654800
0GClawForge 上线，自称"第一个完整的 OpenClaw 驱动主权 agent OS"。栈是 TEE 推理 + 永久 0G memory + 零上下文丢失 + 多 agent 系统编排。卖点是"铸造、编排、拥有、进化"链上 agent 系统。撇开 crypto 包装，技术想法本身——agent memory 可验证 + 推理在 TEE 里——是 agent loop 社区将来 ship 生产系统时必须解决的问题。

💡#28

@MakeAI_CEO
https://x.com/MakeAI_CEO/status/2054701758434484488
引用 Bui 等人 2026 年 3 月 5 日 arXiv 那篇论文，把 agent loop 的经典"plan → action → observe → adjust → repeat"细化成了 6 阶段：precheck → thinking → self-critique → action → tool execution → postprocess。阶段数本身不是重点——"self-critique 变成了一个有文献的命名阶段"才是。在 action 之前显式插一步自我批评，是 loop 在很多场景里从"不收敛"变成"收敛"的关键。

💡#29

@glitchtruth
https://x.com/glitchtruth/status/2054524505012506626
Anthropic 自己不会说出口的那个 frame："Codex 几个月前就 ship 了 /goal 风格的自主 loop，Cursor 在 Anthropic 还在推单轮 tool use 的时候就在跑后台 agent。Claude Code 2.1 真正的信号是终于承认 agent loop 应该在 client 里、不是在 model 里。Sonnet 4.6 单 token 还是更好的 coder，GPT-5.5 只是 harness 现在领先。" 如果 loop 活在 harness 里，model 就是可替换底层。这是这周定价新闻试图回答的上游问题。

💡#30

@hxiao
https://x.com/hxiao/status/2055052551318573552
"术语更新：现在的 semi-supervised learning 基本上就是 AK 的 autoresearch + steering。unsupervised learning 什么时候到？" 全周最压缩的一句话。Autoresearch 不是新的 agent 范式，是 ML 方法论栈的下一层套了 LLM 时代的新名字。

💡#31

@ttorres
https://x.com/ttorres/status/2054611139623846155
为 Vistaly 从零重建 AI 生成的"机会-解决方案树"——demo 原型一进真实使用环境就崩了。真正的突破不是"用更多代码 patch 修复"，而是让模型自己 self-correct、再用验证工具把这个 self-correct 包起来。"一个带验证工具的 agent loop 能把不可能的问题变成可管理的问题。" 这个范式不只在 PM 工具上有效。

📡 生态产品雷达

生态产品雷达

Karpathy 的 autoresearch —— 本周大部分 loop 讨论的命名源头。
Claude Code —— 在 dev 侧还是跑这些 loop 的默认 harness；/goal 命令把 Ralph 式循环变成了开箱即用。
Codex —— 多个用户明确指出几个月前就 ship 了 /goal 风格自主 loop，也是 Anthropic SDK 信用额政策后的迁移目的地。
Cursor —— 在 Anthropic 还推单轮 tool use 时就在跑后台 agent；/orchestrate skill 能递归生成子 agent。
Hermes Agent —— 在多 agent 设置里跟 OpenClaw 配对，也是第一个拿到公开 TIP Verify 验证的 agent runtime。
OpenClaw —— 编码 harness 之外被点名最多的 multi-agent 调度器；0GClawForge 是第一个"主权"版本。
Kimi K2.6 —— 多次被点名"覆盖 90% loop 工作的够用模型"，价格是 Opus 的一小部分。
DeepSeek / Qwen3 / GLM —— 出现在 LangChain harness profile 和 Cloudflare 部署里，撑起便宜 loop 的开源 weight。
Aeon framework —— 第一个把 autoresearch 打包成消费者钱包里可运行 skill 的（通过 bankrbot）。
LangChain —— 这周一口气发了 harness profile、loop 里的 code interpreter、DeltaChannel checkpoint、ContextHubBackend。
VESSL Cloud —— 真正在同等硬件上跑赢 Karpathy autoresearch 基准的平台。
Lossfunk / CAISc 2026 —— 这个月 autoresearch 学术圈的集合点。
Tilde —— 把 Google Drive 变成 agent 一等数据源。
WorldSeed —— Jie Ding 教授配套 Autoresearch 的开源项目，用嘴说就能组合 agent。

← 上一篇

超级用户日报: 2026-05-15

灵感雷达: 2026-05-15

← 返回所有文章

加载中...

Loop 日报: 2026-05-15

相关文章

评论