2026年6月1日loop

Loop 日报: 2026-06-02

Karpathy 本周加入 Anthropic,要把 autoresearch 推到前沿规模——时间点很关键,同一周「在生产环境里运营 agent」这件事,从隐性经验变成了可以教的课程。整个行业基本收敛到一句话定义:autoresearch 就是 /goal 加一个你信得过的 verifier,趁你睡觉跑。这一批数据里新的部分,是大家终于开始报具体数字——8 到 10 小时的逆向工程循环、24 小时 35 个 agent 把生产 SOTA 推高 5 分、Max 20x 套餐上单日烧掉 10 亿 token、一个失控的子 agent 循环 40 分钟烧光了一个月的预算。闭环本身就是产品,换模型是最容易的那一步。
💡#1
@hu_yifei
https://x.com/hu_yifei/status/2061166665677856973
当下最实在的一个 setup:每天过夜跑 /goal 模式的 autoresearch,白天开 fast mode 并行多个 Codex CLI session,开玩笑说要订几份 200 美金月费才够喂这个习惯。一个参考数字告诉你这个循环有多响——他之前用 API key 跑,轻轻松松烧到 Max 套餐的 5 到 10 倍。这正是为什么订阅这种东西存在,也是为什么 Anthropic 现在要开始单独计量。
💡#2
@ryancarson
https://x.com/ryancarson/status/2061167249298206952
真实生产环境的 auto-research 迁移。在 Untangle 的一个具体工作流(拆解 discovery document 请求)上用 Devin 跑完整循环。结果告诉他们 haiku-4.5 在准确度上够用、延迟上还赢——所以他们切了。结构性的点是:这个循环是一个选模型工具,不是训模型工具,仅这一项就足以翻转生产环境的经济账。
💡#3
@mladluka
https://x.com/mladluka/status/2061131327491944735
这一批里规模最大的一个循环。35+ 个并行 agent,24 小时以上的 autoresearch 跑一个 NLP 类别不平衡问题。架构是:10 个 research agent 在 arXiv、GitHub、Kaggle、Medium 上爬资料,写进 research.md;10 个 implementation agent 把研究映射到具体问题、训模型跑 eval,写进 logs.md;10 个 feedback agent 做完整的错误分析、提出下一轮架构迭代,写进 feedback.md。最终 PR 超过 100 万行代码。结果:现成的生产实时 SOTA 模型涨了 5 分。
💡#4
@shreybirmiwal
https://x.com/shreybirmiwal/status/2061216703762293101
Modal 的 autoresearch 黑客松:EEG 控制器读脑电波,加上动作标签(空格、鼠标移动),喂进 autoresearch 循环训一个根据脑电波预测浏览器控制的模型。眨眼对应 wave1 的尖峰,映射到「跳」。结果就是用脑电波玩 Geometry Dash。这条值得记,是 autoresearch 从代码跳进原始信号到动作的那一刻。
💡#5
@Daniel_Alami
https://x.com/Daniel_Alami/status/2061091064367214889
长帖但实质很硬。从 3 月 28 号起一个人做了九周,追 Karpathy 的 autoresearch 思路。发布了 ZTARE(Zero-Trust Adversarial Reasoning Engine):一个 AI 提议,另一个尝试打破它,第三个当裁判,确定性的 gate 决断。把它指向四个开放难题——修正引力、神经标度律、意识归属治理、Navier-Stokes——返回的是「约束诊断」,不是「正面定律」。98 分的评估反而是警告信号,说明系统只是把学术主流检索回来包装一下。大概一个月之后他做了一个改变方向的决定:让系统对准自己。一个 miner 给每个原语打分、反馈回 dashboard。第二个 repo 叫 Cognitive-Firm,三层:人指方向;以 Claude Code / Codex 工人队组成的研究总监层;ZTARE 作为「底物-变异器-裁判」的工作台。两个 repo 都开源。
💡#6
@yibie
https://x.com/yibie/status/2061215797109002550
他维护的 autoresearch 证据扫描总条目已到 423,本周新增 12 个。亮点:auto-alphafold3 把 autoresearch 引进蛋白质折叠;autoresearch-distillation 用 SDPO/GRPO 训 LLM 在 autoresearch 任务上超越原版 agent;symphonic-autoresearch 部署在 OpenAI 的 Symphony 编排框架上;chess-autoresearcher 用 46 场实验验证象棋引擎超参已达局部最优;AutoResearch Trading Strategy 作为加密期货的自主发现系统;Autobrowse 是 Karpathy 模式在 browser agent 记忆上的应用。重点不是某一条,是这种铺开的宽度。
💡#7
@SPXTrades
https://x.com/SPXTrades/status/2061194017912823845
具体的最长时长:8 到 10 小时的 auto research 循环,去逆向 CRC32 和 SHA256。值得记是因为这是一个干净的桌面对照——告诉你这个循环已经能伸到典型 web/SaaS 之外。
💡#8
@KranenKyle
https://x.com/KranenKyle/status/2061004926617346483
Auto research 用来给 Dynamo(NVIDIA 推理服务框架)原型新的调度算法。已经用它设计了一些改进,「开始在试这个能推到多远」。autoresearch 作为一个真实分布式系统场景里的「算法设计助手」——这是一个跨大类的跳跃。
💡#9
@alokbishoyi97
https://x.com/alokbishoyi97/status/2061107898814808552
开源了 evo:插上任何 repo,它会发现并建议要优化的指标,再并行跑 autoresearch 循环。自带 gate,防止 autoresearch agent 引入意外副作用。可以分发到你手上任意云基础设施,也可以本地跑。「对意外副作用加 gate」这一条正是这个品类一直缺的——大多数循环很乐意把自己的 rubric Goodhart 掉。
💡#10
@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2061171114135707660
「在做股票交易的 autoresearch:长跑任务用 Chronos2 训出来的时间序列预测器、或者 xgboost/rl 去学交易算法。」autoresearch 在代码以外的前沿正越来越多落在时间序列金融上——rubric 没歧义(PnL),搜索空间巨大。
💡#11
@Peaky8linders
https://x.com/Peaky8linders/status/2061187290685231269
autoresearch 用在安全方向:部署 agent 群去扫描和检测合规、网安问题,用 probe 跑实验,在压力下持续硬化系统。是真正的防御性用例,不是内容噱头。
💡#12
@kollisarath
https://x.com/kollisarath/status/2061184407432753295
「在用 auto research 做生命科学 AI 模型。自我进化的 agent 系统是未来。」细节不多,但方向清楚——pharma 团队正在把 autoresearch 接到模型发现的流程里,跟 ML 团队走的路一样。
💡#13
@AIImgGeneration
https://x.com/AIImgGeneration/status/2061149945458032740
Chrome CDP 加 autoresearch 思路,对特定网站(这里点名 X)迭代造内容抽取器。几轮之后抽取器够用了;净效果是减少了手动往 Obsidian 里添加文章的量。规模小,但是一个干净的、长在个人知识管理栈里的 autoresearch 自用 case。
💡#14
@maxjendrall
https://x.com/maxjendrall/status/2061199125715255323
干净的技术定义:「/goal 是 agent loop + verifier。」只有任务有二元/可量化的「完成与否」判定才行得通,而且必须有充足的访问权和额度。他在 20x 套餐上,借着当下的活动,一天能烧 10 亿 token 以上。这个数字跟数据里其他所有人一致地响。
💡#15
@ryancarson
https://x.com/ryancarson/status/2061050823593906659
最简一句话操作化定义:「Karpathy 的 auto research——最简单的实现就是用 codex(或者 Claude Code 那边叫什么)里的 /goal。」这已经是高互动帖子里的共识表达。
💡#16
@aabyzov
https://x.com/aabyzov/status/2060900302979498271
所有跑循环的人都该收的一个警告:「一次失控的子 agent 循环,40 分钟烧掉了我一个月的预算,之后我才加了硬上限。Caps 是新的限速。」这一品类需要的是耐久执行模式,而不是更好的 prompt。
💡#17
@danyurkin
https://x.com/danyurkin/status/2060968447962419599
一个干净的 agentic loop benchmark:行程规划任务,必须触发 7 个特定的 tool call 才算完成。这个模型在 4.8GB 内存里 6.9 秒搞定 7/7。对照他在同一任务上跑 gpt-oss-20b,掉到 3/7。多工具调用的可靠性正在成为大家真正围绕来设计循环的指标。
💡#18
@sakurayukiai
https://x.com/sakurayukiai/status/2061208118931976320
「Qwen3.6-27B 在单卡消费级 GPU 上跑出 SWE-bench Verified 77.2%。本地 agent 循环已经便宜得离谱了。」如果属实,这把很多中等复杂度永远在线循环的成本压到接近 0——也解释了为什么 open-weight 那群人忽然又显得危险。
💡#19
@trustable_ai
https://x.com/trustable_ai/status/2061135806928925107
一段坦白的栈,正好映射「开放 vs 闭源」的分裂:复杂编程留给 Claude 因为它确实好用,但其他全往 open-weight 推。Hermes 跑在开源模型上,有扎实的 agent loop 和很多 skill——「非常危险」——所以全栈活在一台 VPS 上,Obsidian 通过 git 同步。对循环的个人主权,正在变成一个设计目标。
💡#20
@aboutlo
https://x.com/aboutlo/status/2061145933899829508
关于 ds4-server vs ds4-agent 的吐槽:「我不懂为什么硬推 ds4-agent,明明可以利用现有 harness 给 ds4 写自定义扩展,不用从零再造一个 agent loop。」是个真实信号——重度用户已经开始对「新 agent runtime」的发布觉得重复。
💡#21
@mustafaergisi
https://x.com/mustafaergisi/status/2061115493440704710
「AI 工具的锁定问题,已经不是模型,是 harness。我的 agent loop 90% 是脚手架、10% 是 prompt,换底层模型意味着重建大部分脚手架。」这是这一批里最锋利的一句对「为什么 harness 是新的护城河」的概括。
💡#22
@vipul_khatana_
https://x.com/vipul_khatana_/status/2061101797498900550
值得记的实现细节:把日志写当成 agent loop 上的一个 hook,每次 tool call 触发。agent 永远不需要「记得记录」,写日志就是动作的一部分。结构化抽取在下游、不在关键路径上。是标准做法,但很少有人这么干净地讲出来。
💡#23
@IamPranavJ
https://x.com/IamPranavJ/status/2060912940669386791
「benchmark 抓不到 latency 的税。每次 tool call 400ms vs 20ms 不影响 MMLU,但在 agent loop 里会一直滚雪球进整体 runtime。我们把小模型搬到端上,单经济模型的变化比任何准确度增益都大。」延迟正在变成生产循环真正的 benchmark。
💡#24
@oscmansan
https://x.com/oscmansan/status/2061233855961456784
最锋利的一条质疑:Karpathy 的 autoresearch 是 Sutton 的 Discovery 循环——变异、评估、留最好的——但提议来自生成器自己的先验,裁判是一个标量。所以是真的「发现」,还是在生成器原本就能想到的空间内爬山?这个问题值得一直挂着。
💡#25
@jjcitron
https://x.com/jjcitron/status/2061218954438119461
原话值得整段引:「Karpathy 这周加入 Anthropic,要把 autoresearch 推到前沿规模。同一周,运营级别地在生产环境里跑 agent 这种纪律,从隐性经验变成了正式课程。闭环本身就是产品,换模型是最容易的那一步。」
💡#26
@YuLin807
https://x.com/YuLin807/status/2061188829567218003
把唱反调那一条收下:「前 6 个月大家在讲 Agent loop,前 3 个月还在讲 Agent loop,现在还是 Agent 自动化。最终大家会发现:Agent loop 是个伪命题,最终还是回到 human loop。以人为本。曾经我也痴迷全自动化,现在反思纯属浪费时间。如果你还在为 Agent 自动化焦头烂额,建议直接放弃。」这是一条真实的反向声音。
💡#27
@veyhon
https://x.com/veyhon/status/2060949394464370726
14 天手写 Claude Code 风格的 Agent CLI 教程,每天加一层 harness 边界:CLI 运行时、agent loop、工具调用、权限、文件编辑、命令执行、会话记忆、hooks、skills、subagents、worktree、MCP。Day 1-7 做单 agent CLI,Day 8-14 升级到多 agent 协作、worktree 隔离、MCP 客户端。是这一批数据里关于「harness 这层到底装了什么」最好的教学品。
💡#28
@giginet
https://x.com/giginet/status/2060972236794888395
小一点但纪律满分的一个 case:Icon Composer 的 *.icon 渲染没有 headless CLI,所以塞不进循环。挖 App Bundle 发现里面有 ictool,注册成 skill,agentic loop 这就能在图标活上跑了。规则是:把那个缺失的 CLI 一步先找出来,再尝试做成循环。
📡 生态产品雷达
生态产品雷达

Karpathy autoresearch — 源头概念;在这一批数据里跟 /goal 基本同义
/goal(Codex / Claude Code)— 事实标准的 autoresearch 原语;可验证任务加循环加订阅油
Codex CLI — 跟 Claude Code 配对,并行跑工作流
Claude Code — 这一批高互动作者过夜跑循环的首选运行时
Devin — ryancarson 在选模型前跑完整 auto-research 工作流的工具
evo (alokbishoyi97) — 带「副作用 gate」、可并行跑的开源 autoresearch 编排器
Hermes Agent — open-weight 运行时,扎实的 agent loop,沙箱在 VPS
Modal — autoresearch 黑客松的主办方,EEG 脑电波那个 case 的现场
Dynamo (NVIDIA) — auto-research 驱动调度算法改进的底座
ZTARE / Cognitive-Firm — 对抗推理引擎与组织核,都开源
Obsidian — 跟这些循环反复搭配的本地记忆库
Chronos2 — 交易 autoresearch 循环里用的时间序列预测器
Qwen3.6-27B — 让本地 agent 循环变便宜的那个 SWE-bench 高分开源模型
← 上一篇
超级用户日报: 2026-06-02
下一篇 →
灵感雷达: 2026-06-02
← 返回所有文章

评论

加载中...
>_