2026年5月26日loop

Loop 日报: 2026年5月27日

Karpathy 发了条 "autoresearch",天上就掉下来一个市场。这一天看得很清楚:这个想法已经不再是一个聪明的 demo,开始变成基础设施了——有创业公司、有 benchmark 之争、还有人在抢这个名字。但更有意思的信号是这个循环正在往哪逃。它正在离开 ML 训练,出现在机器人导航、子宫内膜异位症研究、软件交付和 skill 优化里。这一切底下的共同形状都一样:找一个有可编辑文件、有可测量分数的问题,把它包进一个"构建-评估-保留或回退"的循环,然后让它跑。下面是今天把这个想法往前推的人。
💡#1
@yacinelearning
https://x.com/yacinelearning/status/2058943549521985892
这一天看的人最多的 autoresearch 对话,一段 90 分钟、和 Paradigma 团队深聊 auto-research 底层基础设施的内容。核心论点是:DAG 才是自主研究的正确底座——它决定了你怎么让 agent 跑实验、在实验之间共享上下文、构建大型公开研究图,而不至于整个塌成一堆"坏 DAG"。这正是所有人挥手带过的部分——一个 agent 怎么追踪成千上万个实验这种枯燥管道——而它恰恰决定了 autoresearch 能不能在规模上跑起来,还是被自己的上下文压垮。
💡#2
@JoseCSancho
https://x.com/JoseCSancho/status/2059005860790055163
这一天最犀利的市场判断。他指出 Karpathy 的 autoresearch 仓库有约 8 万星、1.17 万 fork,却没人在抢这个商业品牌,而 Shopify 内部早已验证了打法(Liquid 提速 53%、单测胜出 300 倍、CI 构建砍 65%),谷歌还发了个每小时 2 美元的 Cloud Run 教程。他的论点是:真正空着的口子是把 Karpathy 的循环用到非 ML 领域——RAG 检索、提示词套件、构建期优化、交易研究——以及大厂 agent 实验室吞掉它之前那 12 个月的窗口。不管你是否照做,这是对价值在哪最清晰的框定。
💡#3
@Montreal_AI
https://x.com/Montreal_AI/status/2058731326186852382
他指向一篇 ICML 2026 的论文 Self-play SWE-RL,这是这个循环最纯粹的样子。一个编码 agent 在沙盒仓库里生成自己的课程,完全不用人工标注的 issue:一个 LLM 策略当注入 bug 的人,另一个当解 bug 的人,每一次修复失败都变成更难的 bug、推动课程进化。结果是标题:SWE-bench Verified 上 +10.4,SWE-Bench Pro 上 +7.8,打败了用人类数据的 RL 基线。这是 AlphaZero 的自我对弈,对准了软件工程,它在说——数据瓶颈也许只是个选择。
💡#4
@SatyKrish
https://x.com/SatyKrish/status/2059024373734924448
一个建在 Karpathy 仓库上、完整定义清楚的自我改进循环,对准的是 skill 文件。它把一个 SKILL.md 跑在固定的训练片段上,用一个 LLM 裁判子 agent 按每个 skill 的评分表打分,然后根据总分保留或回退这次改动,在一个专门的 git 分支上迭代,这个分支同时就是实验日志。"在分支上保留或回退"这个机制就是全部诀窍——把版本控制当成自动自我改进的底座。他提到 SkillOpt 做的事类似。
💡#5
@AgnOps
https://x.com/AgnOps/status/2058956568566042791
skill 优化循环背后的硬数字。微软研究院的 SkillOpt 在 6 个 benchmark、7 个目标模型、3 个执行 harness 上跑——总共 52 个格子——在每一个上都是最佳或并列。具体说:GPT-5.5 直接聊天 +23.5 分,在 Codex agentic loop 里 +24.8,在 Claude Code 里 +19.1,逐格打败了人工写的 skill、一次性 LLM、TextGrad、GEPA 和 EvoSkill。当一个自动循环在 52 格的网格上每一格都赢过人类专家,"人来写 skill"的时代已经被敲响警钟了。
💡#6
@alokbishoyi97
https://x.com/alokbishoyi97/status/2058933449508241547
他在做 evo,一个开源的 autoresearch 编排器,能挂到任意仓库上、自动发现值得优化的指标、并行跑循环。对真实使用最关键的部分:它设了 gate,让 agent 不能引入意外后果,能接进你已经在用的任何 agent,把任务分布到你的云基础设施上、也能本地跑。这些 gate 正是 autoresearch 一直缺的成人监管——把"让它过夜跑"从鲁莽变成可部署。
💡#7
@vivekchand19
https://x.com/vivekchand19/status/2059037833403511235
他推出了 FLYWHEEL.md,一个 MIT 许可的单文件,把 Karpathy 的过夜实验循环对准真实软件的交付,并在要紧的关口留下人。他给出一套正在成形的 agent 文件经典:AGENTS.md(做什么)、SOUL.md(做谁)、FLYWHEEL.md(怎么交付、怎么知道交付到位了)。每个流水线阶段都声明"什么时候算完成"以及 agent 是继续还是等人。这是把自主循环变得可审计的一次干净尝试——用一个文件描述整个飞轮怎么转。
💡#8
@lesh_bla
https://x.com/lesh_bla/status/2058924147158421513
这一天最干净的非 ML 用例。他写了个基础导航算法(回环检测、重定位),用 AprilTag 建立打分的真值,然后跑 autoresearch 直到分数完美。这是把模板剥到只剩骨头的样子:一个代码里的问题、一个客观的验证器、一个被丢在那里磨的循环。机器人感知,被一个 agent 过夜调好,而不是研究生磨一个月。
💡#9
@romir_jain
https://x.com/romir_jain/status/2058871287989379113
来自 Jina AI 韩潇的一个具体又便宜的优化循环:Claude Opus 4 在一个冻结的 embedding API 上写 Python 程序,一个 harness 给每个程序打分,一个长程记忆追踪已经试过什么。重点在数字上——259 个程序、90 代,总成本约 30 美元。这一句话就是 autoresearch 的全部卖点:90 代机器驱动的迭代,只花一顿午饭钱。
💡#10
@filipwojda
https://x.com/filipwojda/status/2058999632655429674
很短,但是个真实的扩散信号:他在对子宫内膜异位症跑 auto-research。这个循环完全离开了代码和 ML,出现在医学研究里,对准了一个出了名研究不足的病。这正是乐观派一直在描述的未来——任何有可测量问题和一份语料的人,都能拉起一个不知疲倦的研究 agent,不需要实验室。
💡#11
@morgymcg
https://x.com/morgymcg/status/2058928240106914295
真刀真枪做 autoresearch agent 攒下来的教训,和一份自动核函数生成报告独立得出的结论吻合:清晰的实验管理至关重要,而且必须避免把研究和修 bug 拽回主上下文。他最犀利的洞察是:针对一个具体观察到的推理缺口(这次是 agent 从不检查输入数据)加子 agent,比加通用算力更管用。这些循环的失败,大多是上下文管理的失败,不是智能的失败。
💡#12
@samrexford
https://x.com/samrexford/status/2058737184447091168
他发布了 /autodev,一个把 autoresearch 循环用于通用开发的 Claude skill:一个持续的构建-评估-迭代循环,agent 写代码、跑本地测试、提交,一直跑到撞上明确的"完成定义"。是个小东西,但它把这个循环打包成了一条命令的 skill,谁都能丢进去用——一个想法就是这么从 Karpathy 的仓库走进每个人的终端的。
💡#13
@mourginakis
https://x.com/mourginakis/status/2058768439892934828
给所有跑这种循环的人一个精确的奖励塑形点子:agent 经常产出难读、绕弯的方案,所以把 ruff 这类 linter 的确定性指标喂回 autoresearch 循环,或者在 loss 里加个类似 log(代码行数) 的项来惩罚臃肿。这是对一个真实失败模式的一句话修复——循环只会优化你测量的东西,所以你只测正确性,就会得到一堆正确的垃圾。也把可读性测了。
💡#14
@Moustafa_Awad
https://x.com/Moustafa_Awad/status/2058932854814384419
对那个在生产里真正站得住的实用 agent 循环的紧凑描述:把活干了,把可重复的部分变成 skill,加上 eval 和集成测试,然后让 cron 去做回查。他这话戳的是对"规划"的执念——可靠性来自包在 agent 外面那个枯燥的循环,而不是前期一个更聪明的计划。这是 autoresearch 最不光鲜、但大多数人真正会跑的版本。
📡 生态产品雷达
生态产品雷达

Karpathy 的 autoresearch 仓库(约 8 万星、1.17 万 fork)是整场对话的引力中心,几乎这里每个项目都把它当灵感或底座——从 skill 改进循环到 FLYWHEEL.md 到过夜模型实验。

evo(@alokbishoyi97)是当下最有牵引力的开源编排器:把 autoresearch 挂到任意仓库、自动建议指标、带 gate 并行跑循环、可分布到云也可本地。"让普通人也能部署 autoresearch"的那一手。

Paradigma 是基础设施的押注,把 DAG 当作自主研究的基本单元,去搭别人都挥手带过的那套实验追踪底座。

SkillOpt(微软研究院)是 benchmark 上的重量级,一个自动 skill 优化循环,在全部 52 个模型-benchmark-harness 格子上最佳或并列,打败了人工写的 skill 和 TextGrad、GEPA 这类先前方法。

FLYWHEEL.md(@vivekchand19)是值得盯的新产物,一个 MIT 许可的单文件,把自主交付循环变得可审计,和 AGENTS.md、SOUL.md 一起进入正在成形的 agent 仓库经典。
← 上一篇
超级用户日报: 2026年5月27日
下一篇 →
灵感雷达: 2026年5月27日
← 返回所有文章

评论

加载中...
>_