2026年6月2日loop

Loop 日报: 2026-06-02

Karpathy 本周加入 Anthropic，要把 autoresearch 推到前沿规模——时间点很关键，同一周「在生产环境里运营 agent」这件事，从隐性经验变成了可以教的课程。整个行业基本收敛到一句话定义：autoresearch 就是 /goal 加一个你信得过的 verifier，趁你睡觉跑。这一批数据里新的部分，是大家终于开始报具体数字——8 到 10 小时的逆向工程循环、24 小时 35 个 agent 把生产 SOTA 推高 5 分、Max 20x 套餐上单日烧掉 10 亿 token、一个失控的子 agent 循环 40 分钟烧光了一个月的预算。闭环本身就是产品，换模型是最容易的那一步。

💡#1

@hu_yifei
https://x.com/hu_yifei/status/2061166665677856973
当下最实在的一个 setup：每天过夜跑 /goal 模式的 autoresearch，白天开 fast mode 并行多个 Codex CLI session，开玩笑说要订几份 200 美金月费才够喂这个习惯。一个参考数字告诉你这个循环有多响——他之前用 API key 跑，轻轻松松烧到 Max 套餐的 5 到 10 倍。这正是为什么订阅这种东西存在，也是为什么 Anthropic 现在要开始单独计量。

💡#2

@ryancarson
https://x.com/ryancarson/status/2061167249298206952
真实生产环境的 auto-research 迁移。在 Untangle 的一个具体工作流（拆解 discovery document 请求）上用 Devin 跑完整循环。结果告诉他们 haiku-4.5 在准确度上够用、延迟上还赢——所以他们切了。结构性的点是：这个循环是一个选模型工具，不是训模型工具，仅这一项就足以翻转生产环境的经济账。

💡#3

@mladluka
https://x.com/mladluka/status/2061131327491944735
这一批里规模最大的一个循环。35+ 个并行 agent，24 小时以上的 autoresearch 跑一个 NLP 类别不平衡问题。架构是：10 个 research agent 在 arXiv、GitHub、Kaggle、Medium 上爬资料，写进 research.md；10 个 implementation agent 把研究映射到具体问题、训模型跑 eval，写进 logs.md；10 个 feedback agent 做完整的错误分析、提出下一轮架构迭代，写进 feedback.md。最终 PR 超过 100 万行代码。结果：现成的生产实时 SOTA 模型涨了 5 分。

💡#4

@shreybirmiwal
https://x.com/shreybirmiwal/status/2061216703762293101
Modal 的 autoresearch 黑客松：EEG 控制器读脑电波，加上动作标签（空格、鼠标移动），喂进 autoresearch 循环训一个根据脑电波预测浏览器控制的模型。眨眼对应 wave1 的尖峰，映射到「跳」。结果就是用脑电波玩 Geometry Dash。这条值得记，是 autoresearch 从代码跳进原始信号到动作的那一刻。

💡#5

@Daniel_Alami
https://x.com/Daniel_Alami/status/2061091064367214889
长帖但实质很硬。从 3 月 28 号起一个人做了九周，追 Karpathy 的 autoresearch 思路。发布了 ZTARE（Zero-Trust Adversarial Reasoning Engine）：一个 AI 提议，另一个尝试打破它，第三个当裁判，确定性的 gate 决断。把它指向四个开放难题——修正引力、神经标度律、意识归属治理、Navier-Stokes——返回的是「约束诊断」，不是「正面定律」。98 分的评估反而是警告信号，说明系统只是把学术主流检索回来包装一下。大概一个月之后他做了一个改变方向的决定：让系统对准自己。一个 miner 给每个原语打分、反馈回 dashboard。第二个 repo 叫 Cognitive-Firm，三层：人指方向；以 Claude Code / Codex 工人队组成的研究总监层；ZTARE 作为「底物-变异器-裁判」的工作台。两个 repo 都开源。

💡#6

@yibie
https://x.com/yibie/status/2061215797109002550
他维护的 autoresearch 证据扫描总条目已到 423，本周新增 12 个。亮点：auto-alphafold3 把 autoresearch 引进蛋白质折叠；autoresearch-distillation 用 SDPO/GRPO 训 LLM 在 autoresearch 任务上超越原版 agent；symphonic-autoresearch 部署在 OpenAI 的 Symphony 编排框架上；chess-autoresearcher 用 46 场实验验证象棋引擎超参已达局部最优；AutoResearch Trading Strategy 作为加密期货的自主发现系统；Autobrowse 是 Karpathy 模式在 browser agent 记忆上的应用。重点不是某一条，是这种铺开的宽度。

💡#7

@SPXTrades
https://x.com/SPXTrades/status/2061194017912823845
具体的最长时长：8 到 10 小时的 auto research 循环，去逆向 CRC32 和 SHA256。值得记是因为这是一个干净的桌面对照——告诉你这个循环已经能伸到典型 web/SaaS 之外。

💡#8

@KranenKyle
https://x.com/KranenKyle/status/2061004926617346483
Auto research 用来给 Dynamo（NVIDIA 推理服务框架）原型新的调度算法。已经用它设计了一些改进，「开始在试这个能推到多远」。autoresearch 作为一个真实分布式系统场景里的「算法设计助手」——这是一个跨大类的跳跃。

💡#9

@alokbishoyi97
https://x.com/alokbishoyi97/status/2061107898814808552
开源了 evo：插上任何 repo，它会发现并建议要优化的指标，再并行跑 autoresearch 循环。自带 gate，防止 autoresearch agent 引入意外副作用。可以分发到你手上任意云基础设施，也可以本地跑。「对意外副作用加 gate」这一条正是这个品类一直缺的——大多数循环很乐意把自己的 rubric Goodhart 掉。

💡#10

@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2061171114135707660
「在做股票交易的 autoresearch：长跑任务用 Chronos2 训出来的时间序列预测器、或者 xgboost/rl 去学交易算法。」autoresearch 在代码以外的前沿正越来越多落在时间序列金融上——rubric 没歧义（PnL），搜索空间巨大。

💡#11

@Peaky8linders
https://x.com/Peaky8linders/status/2061187290685231269
autoresearch 用在安全方向：部署 agent 群去扫描和检测合规、网安问题，用 probe 跑实验，在压力下持续硬化系统。是真正的防御性用例，不是内容噱头。

💡#12

@kollisarath
https://x.com/kollisarath/status/2061184407432753295
「在用 auto research 做生命科学 AI 模型。自我进化的 agent 系统是未来。」细节不多，但方向清楚——pharma 团队正在把 autoresearch 接到模型发现的流程里，跟 ML 团队走的路一样。

💡#13

@AIImgGeneration
https://x.com/AIImgGeneration/status/2061149945458032740
Chrome CDP 加 autoresearch 思路，对特定网站（这里点名 X）迭代造内容抽取器。几轮之后抽取器够用了；净效果是减少了手动往 Obsidian 里添加文章的量。规模小，但是一个干净的、长在个人知识管理栈里的 autoresearch 自用 case。

💡#14

@maxjendrall
https://x.com/maxjendrall/status/2061199125715255323
干净的技术定义：「/goal 是 agent loop + verifier。」只有任务有二元/可量化的「完成与否」判定才行得通，而且必须有充足的访问权和额度。他在 20x 套餐上，借着当下的活动，一天能烧 10 亿 token 以上。这个数字跟数据里其他所有人一致地响。

💡#15

@ryancarson
https://x.com/ryancarson/status/2061050823593906659
最简一句话操作化定义：「Karpathy 的 auto research——最简单的实现就是用 codex（或者 Claude Code 那边叫什么）里的 /goal。」这已经是高互动帖子里的共识表达。

💡#16

@aabyzov
https://x.com/aabyzov/status/2060900302979498271
所有跑循环的人都该收的一个警告：「一次失控的子 agent 循环，40 分钟烧掉了我一个月的预算，之后我才加了硬上限。Caps 是新的限速。」这一品类需要的是耐久执行模式，而不是更好的 prompt。

💡#17

@danyurkin
https://x.com/danyurkin/status/2060968447962419599
一个干净的 agentic loop benchmark：行程规划任务，必须触发 7 个特定的 tool call 才算完成。这个模型在 4.8GB 内存里 6.9 秒搞定 7/7。对照他在同一任务上跑 gpt-oss-20b，掉到 3/7。多工具调用的可靠性正在成为大家真正围绕来设计循环的指标。

💡#18

@sakurayukiai
https://x.com/sakurayukiai/status/2061208118931976320
「Qwen3.6-27B 在单卡消费级 GPU 上跑出 SWE-bench Verified 77.2%。本地 agent 循环已经便宜得离谱了。」如果属实，这把很多中等复杂度永远在线循环的成本压到接近 0——也解释了为什么 open-weight 那群人忽然又显得危险。

💡#19

@trustable_ai
https://x.com/trustable_ai/status/2061135806928925107
一段坦白的栈，正好映射「开放 vs 闭源」的分裂：复杂编程留给 Claude 因为它确实好用，但其他全往 open-weight 推。Hermes 跑在开源模型上，有扎实的 agent loop 和很多 skill——「非常危险」——所以全栈活在一台 VPS 上，Obsidian 通过 git 同步。对循环的个人主权，正在变成一个设计目标。

💡#20

@aboutlo
https://x.com/aboutlo/status/2061145933899829508
关于 ds4-server vs ds4-agent 的吐槽：「我不懂为什么硬推 ds4-agent，明明可以利用现有 harness 给 ds4 写自定义扩展，不用从零再造一个 agent loop。」是个真实信号——重度用户已经开始对「新 agent runtime」的发布觉得重复。

💡#21

@mustafaergisi
https://x.com/mustafaergisi/status/2061115493440704710
「AI 工具的锁定问题，已经不是模型，是 harness。我的 agent loop 90% 是脚手架、10% 是 prompt，换底层模型意味着重建大部分脚手架。」这是这一批里最锋利的一句对「为什么 harness 是新的护城河」的概括。

💡#22

@vipul_khatana_
https://x.com/vipul_khatana_/status/2061101797498900550
值得记的实现细节：把日志写当成 agent loop 上的一个 hook，每次 tool call 触发。agent 永远不需要「记得记录」，写日志就是动作的一部分。结构化抽取在下游、不在关键路径上。是标准做法，但很少有人这么干净地讲出来。

💡#23

@IamPranavJ
https://x.com/IamPranavJ/status/2060912940669386791
「benchmark 抓不到 latency 的税。每次 tool call 400ms vs 20ms 不影响 MMLU，但在 agent loop 里会一直滚雪球进整体 runtime。我们把小模型搬到端上，单经济模型的变化比任何准确度增益都大。」延迟正在变成生产循环真正的 benchmark。

💡#24

@oscmansan
https://x.com/oscmansan/status/2061233855961456784
最锋利的一条质疑：Karpathy 的 autoresearch 是 Sutton 的 Discovery 循环——变异、评估、留最好的——但提议来自生成器自己的先验，裁判是一个标量。所以是真的「发现」，还是在生成器原本就能想到的空间内爬山？这个问题值得一直挂着。

💡#25

@jjcitron
https://x.com/jjcitron/status/2061218954438119461
原话值得整段引：「Karpathy 这周加入 Anthropic，要把 autoresearch 推到前沿规模。同一周，运营级别地在生产环境里跑 agent 这种纪律，从隐性经验变成了正式课程。闭环本身就是产品，换模型是最容易的那一步。」

💡#26

@YuLin807
https://x.com/YuLin807/status/2061188829567218003
把唱反调那一条收下：「前 6 个月大家在讲 Agent loop，前 3 个月还在讲 Agent loop，现在还是 Agent 自动化。最终大家会发现：Agent loop 是个伪命题，最终还是回到 human loop。以人为本。曾经我也痴迷全自动化，现在反思纯属浪费时间。如果你还在为 Agent 自动化焦头烂额，建议直接放弃。」这是一条真实的反向声音。

💡#27

@veyhon
https://x.com/veyhon/status/2060949394464370726
14 天手写 Claude Code 风格的 Agent CLI 教程，每天加一层 harness 边界：CLI 运行时、agent loop、工具调用、权限、文件编辑、命令执行、会话记忆、hooks、skills、subagents、worktree、MCP。Day 1-7 做单 agent CLI，Day 8-14 升级到多 agent 协作、worktree 隔离、MCP 客户端。是这一批数据里关于「harness 这层到底装了什么」最好的教学品。

💡#28

@giginet
https://x.com/giginet/status/2060972236794888395
小一点但纪律满分的一个 case：Icon Composer 的 *.icon 渲染没有 headless CLI，所以塞不进循环。挖 App Bundle 发现里面有 ictool，注册成 skill，agentic loop 这就能在图标活上跑了。规则是：把那个缺失的 CLI 一步先找出来，再尝试做成循环。

📡 生态产品雷达

生态产品雷达

Karpathy autoresearch — 源头概念；在这一批数据里跟 /goal 基本同义
/goal（Codex / Claude Code）— 事实标准的 autoresearch 原语；可验证任务加循环加订阅油
Codex CLI — 跟 Claude Code 配对，并行跑工作流
Claude Code — 这一批高互动作者过夜跑循环的首选运行时
Devin — ryancarson 在选模型前跑完整 auto-research 工作流的工具
evo (alokbishoyi97) — 带「副作用 gate」、可并行跑的开源 autoresearch 编排器
Hermes Agent — open-weight 运行时，扎实的 agent loop，沙箱在 VPS
Modal — autoresearch 黑客松的主办方，EEG 脑电波那个 case 的现场
Dynamo (NVIDIA) — auto-research 驱动调度算法改进的底座
ZTARE / Cognitive-Firm — 对抗推理引擎与组织核，都开源
Obsidian — 跟这些循环反复搭配的本地记忆库
Chronos2 — 交易 autoresearch 循环里用的时间序列预测器
Qwen3.6-27B — 让本地 agent 循环变便宜的那个 SWE-bench 高分开源模型

← 上一篇

超级用户日报: 2026-06-02

灵感雷达: 2026-06-02

← 返回所有文章

加载中...

Loop 日报: 2026-06-02

相关文章

评论