2026年5月27日loop

Loop 日报: 2026年5月27日

Karpathy 发了条 "autoresearch"，天上就掉下来一个市场。这一天看得很清楚：这个想法已经不再是一个聪明的 demo，开始变成基础设施了——有创业公司、有 benchmark 之争、还有人在抢这个名字。但更有意思的信号是这个循环正在往哪逃。它正在离开 ML 训练，出现在机器人导航、子宫内膜异位症研究、软件交付和 skill 优化里。这一切底下的共同形状都一样：找一个有可编辑文件、有可测量分数的问题，把它包进一个"构建-评估-保留或回退"的循环，然后让它跑。下面是今天把这个想法往前推的人。

💡#1

@yacinelearning
https://x.com/yacinelearning/status/2058943549521985892
这一天看的人最多的 autoresearch 对话，一段 90 分钟、和 Paradigma 团队深聊 auto-research 底层基础设施的内容。核心论点是：DAG 才是自主研究的正确底座——它决定了你怎么让 agent 跑实验、在实验之间共享上下文、构建大型公开研究图，而不至于整个塌成一堆"坏 DAG"。这正是所有人挥手带过的部分——一个 agent 怎么追踪成千上万个实验这种枯燥管道——而它恰恰决定了 autoresearch 能不能在规模上跑起来，还是被自己的上下文压垮。

💡#2

@JoseCSancho
https://x.com/JoseCSancho/status/2059005860790055163
这一天最犀利的市场判断。他指出 Karpathy 的 autoresearch 仓库有约 8 万星、1.17 万 fork，却没人在抢这个商业品牌，而 Shopify 内部早已验证了打法（Liquid 提速 53%、单测胜出 300 倍、CI 构建砍 65%），谷歌还发了个每小时 2 美元的 Cloud Run 教程。他的论点是：真正空着的口子是把 Karpathy 的循环用到非 ML 领域——RAG 检索、提示词套件、构建期优化、交易研究——以及大厂 agent 实验室吞掉它之前那 12 个月的窗口。不管你是否照做，这是对价值在哪最清晰的框定。

💡#3

@Montreal_AI
https://x.com/Montreal_AI/status/2058731326186852382
他指向一篇 ICML 2026 的论文 Self-play SWE-RL，这是这个循环最纯粹的样子。一个编码 agent 在沙盒仓库里生成自己的课程，完全不用人工标注的 issue：一个 LLM 策略当注入 bug 的人，另一个当解 bug 的人，每一次修复失败都变成更难的 bug、推动课程进化。结果是标题：SWE-bench Verified 上 +10.4，SWE-Bench Pro 上 +7.8，打败了用人类数据的 RL 基线。这是 AlphaZero 的自我对弈，对准了软件工程，它在说——数据瓶颈也许只是个选择。

💡#4

@SatyKrish
https://x.com/SatyKrish/status/2059024373734924448
一个建在 Karpathy 仓库上、完整定义清楚的自我改进循环，对准的是 skill 文件。它把一个 SKILL.md 跑在固定的训练片段上，用一个 LLM 裁判子 agent 按每个 skill 的评分表打分，然后根据总分保留或回退这次改动，在一个专门的 git 分支上迭代，这个分支同时就是实验日志。"在分支上保留或回退"这个机制就是全部诀窍——把版本控制当成自动自我改进的底座。他提到 SkillOpt 做的事类似。

💡#5

@AgnOps
https://x.com/AgnOps/status/2058956568566042791
skill 优化循环背后的硬数字。微软研究院的 SkillOpt 在 6 个 benchmark、7 个目标模型、3 个执行 harness 上跑——总共 52 个格子——在每一个上都是最佳或并列。具体说：GPT-5.5 直接聊天 +23.5 分，在 Codex agentic loop 里 +24.8，在 Claude Code 里 +19.1，逐格打败了人工写的 skill、一次性 LLM、TextGrad、GEPA 和 EvoSkill。当一个自动循环在 52 格的网格上每一格都赢过人类专家，"人来写 skill"的时代已经被敲响警钟了。

💡#6

@alokbishoyi97
https://x.com/alokbishoyi97/status/2058933449508241547
他在做 evo，一个开源的 autoresearch 编排器，能挂到任意仓库上、自动发现值得优化的指标、并行跑循环。对真实使用最关键的部分：它设了 gate，让 agent 不能引入意外后果，能接进你已经在用的任何 agent，把任务分布到你的云基础设施上、也能本地跑。这些 gate 正是 autoresearch 一直缺的成人监管——把"让它过夜跑"从鲁莽变成可部署。

💡#7

@vivekchand19
https://x.com/vivekchand19/status/2059037833403511235
他推出了 FLYWHEEL.md，一个 MIT 许可的单文件，把 Karpathy 的过夜实验循环对准真实软件的交付，并在要紧的关口留下人。他给出一套正在成形的 agent 文件经典：AGENTS.md（做什么）、SOUL.md（做谁）、FLYWHEEL.md（怎么交付、怎么知道交付到位了）。每个流水线阶段都声明"什么时候算完成"以及 agent 是继续还是等人。这是把自主循环变得可审计的一次干净尝试——用一个文件描述整个飞轮怎么转。

💡#8

@lesh_bla
https://x.com/lesh_bla/status/2058924147158421513
这一天最干净的非 ML 用例。他写了个基础导航算法（回环检测、重定位），用 AprilTag 建立打分的真值，然后跑 autoresearch 直到分数完美。这是把模板剥到只剩骨头的样子：一个代码里的问题、一个客观的验证器、一个被丢在那里磨的循环。机器人感知，被一个 agent 过夜调好，而不是研究生磨一个月。

💡#9

@romir_jain
https://x.com/romir_jain/status/2058871287989379113
来自 Jina AI 韩潇的一个具体又便宜的优化循环：Claude Opus 4 在一个冻结的 embedding API 上写 Python 程序，一个 harness 给每个程序打分，一个长程记忆追踪已经试过什么。重点在数字上——259 个程序、90 代，总成本约 30 美元。这一句话就是 autoresearch 的全部卖点：90 代机器驱动的迭代，只花一顿午饭钱。

💡#10

@filipwojda
https://x.com/filipwojda/status/2058999632655429674
很短，但是个真实的扩散信号：他在对子宫内膜异位症跑 auto-research。这个循环完全离开了代码和 ML，出现在医学研究里，对准了一个出了名研究不足的病。这正是乐观派一直在描述的未来——任何有可测量问题和一份语料的人，都能拉起一个不知疲倦的研究 agent，不需要实验室。

💡#11

@morgymcg
https://x.com/morgymcg/status/2058928240106914295
真刀真枪做 autoresearch agent 攒下来的教训，和一份自动核函数生成报告独立得出的结论吻合：清晰的实验管理至关重要，而且必须避免把研究和修 bug 拽回主上下文。他最犀利的洞察是：针对一个具体观察到的推理缺口（这次是 agent 从不检查输入数据）加子 agent，比加通用算力更管用。这些循环的失败，大多是上下文管理的失败，不是智能的失败。

💡#12

@samrexford
https://x.com/samrexford/status/2058737184447091168
他发布了 /autodev，一个把 autoresearch 循环用于通用开发的 Claude skill：一个持续的构建-评估-迭代循环，agent 写代码、跑本地测试、提交，一直跑到撞上明确的"完成定义"。是个小东西，但它把这个循环打包成了一条命令的 skill，谁都能丢进去用——一个想法就是这么从 Karpathy 的仓库走进每个人的终端的。

💡#13

@mourginakis
https://x.com/mourginakis/status/2058768439892934828
给所有跑这种循环的人一个精确的奖励塑形点子：agent 经常产出难读、绕弯的方案，所以把 ruff 这类 linter 的确定性指标喂回 autoresearch 循环，或者在 loss 里加个类似 log(代码行数) 的项来惩罚臃肿。这是对一个真实失败模式的一句话修复——循环只会优化你测量的东西，所以你只测正确性，就会得到一堆正确的垃圾。也把可读性测了。

💡#14

@Moustafa_Awad
https://x.com/Moustafa_Awad/status/2058932854814384419
对那个在生产里真正站得住的实用 agent 循环的紧凑描述：把活干了，把可重复的部分变成 skill，加上 eval 和集成测试，然后让 cron 去做回查。他这话戳的是对"规划"的执念——可靠性来自包在 agent 外面那个枯燥的循环，而不是前期一个更聪明的计划。这是 autoresearch 最不光鲜、但大多数人真正会跑的版本。

📡 生态产品雷达

生态产品雷达

Karpathy 的 autoresearch 仓库（约 8 万星、1.17 万 fork）是整场对话的引力中心，几乎这里每个项目都把它当灵感或底座——从 skill 改进循环到 FLYWHEEL.md 到过夜模型实验。

evo（@alokbishoyi97）是当下最有牵引力的开源编排器：把 autoresearch 挂到任意仓库、自动建议指标、带 gate 并行跑循环、可分布到云也可本地。"让普通人也能部署 autoresearch"的那一手。

Paradigma 是基础设施的押注，把 DAG 当作自主研究的基本单元，去搭别人都挥手带过的那套实验追踪底座。

SkillOpt（微软研究院）是 benchmark 上的重量级，一个自动 skill 优化循环，在全部 52 个模型-benchmark-harness 格子上最佳或并列，打败了人工写的 skill 和 TextGrad、GEPA 这类先前方法。

FLYWHEEL.md（@vivekchand19）是值得盯的新产物，一个 MIT 许可的单文件，把自主交付循环变得可审计，和 AGENTS.md、SOUL.md 一起进入正在成形的 agent 仓库经典。

← 上一篇

超级用户日报: 2026年5月27日

灵感雷达: 2026年5月27日

← 返回所有文章

加载中...

Loop 日报: 2026年5月27日

相关文章

评论