2026年5月22日loop

Loop 日报: 2026-05-22

Loop 日报: 2026-05-22

前天，autoresearch 的话题终于不再围着 Karpathy 的简历转，而是回到了人们到底拿这个循环干了什么。底层套路还是 Karpathy 在 nanochat 上验证过的那一套：给 agent 一个可编辑的文件加一个可测量的数字，让它改、验证、保留或回滚，然后重复。变的是大家把枪口对准了哪里。有人用可微物理优化了一个真实的咖啡杯。有人通宵后训练一个小模型，眼看着分数往上爬。有人已经连续跑了 163 天一个会自己改指令的内容 agent。而在这片热闹底下，有一盆很有用的冷水：一份 NanoGPT-Bench 评测显示，这些 agent 在真实 AI 研发任务上只追回了人类进度的 9.3%，这恰好告诉你循环在哪里管用、在哪里还在装样子。最诚实的结论是：autoresearch 最强的场景是代码库能塞进上下文、评测被冻住、一次实验只花五分钟。一旦超出这三个条件，它就开始发飘。下面是大家实际做出来的东西。

💡#1

@paraschopra
https://x.com/paraschopra/status/2057041064071188495
这是今天最干净的非编程 autoresearch 案例。他把自己的 autoresearch 循环对准了一个可微物理问题：设计一个既能最大化保温、又保证能正常喝的咖啡杯。agent 端到端跑完优化，产出了一个实际的杯子几何形状，他下一步打算用陶瓷 3D 打印出来。这条推就是整个理念的浓缩：任何带可编辑设计文件加可测量目标的问题，都能变成一个自动化实验循环，而且领域根本不必是机器学习。实体产品设计，从今天起也成了 agent 可以通宵迭代的东西。

💡#2

@vivek_2332
https://x.com/vivek_2332/status/2057154013867733468
一条真正可复现的自我改进流水线，不是 demo。他发布了 /synthetic-self-improve-rl，一个 Claude Code skill，让 Claude 扮演老师，去设计合成数据、verifiers 环境和奖励函数来后训练一个更小的学生模型。循环很具体：在真实数据上跑基线，分析低奖励 rollout，生成 500 到 1000 行合成数据，写一个带评分标准的环境，从 checkpoint 续训，在真实测试集上评估，留下有用的，对没用的继续迭代。交付的结果是实打实测出来的：qwen3-0.6B 在 gsm8k 上靠 700 行合成数据从 0.7854 涨到了 0.8158。最妙的一点是，它会一直跑到你设定的墙钟预算耗尽为止，也就是说你是在用 token 直接换准确率。

💡#3

@johniosifov
https://x.com/johniosifov/status/2057092721945301015
数据集里跑得最久的真实循环。第 1028 次会话，2576 个 PR，第 163 天，一个自主 agent 在没有人介入的情况下管理自己的内容日历、研究流水线、队列纪律和质量门槛。让它超越定时脚本的是它的自我纠错能力：agent 抓到一个过期的状态文件，里面写队列有 13 条，实际只有 1 条，它验证、改正，跑了一次正常的批量会话而不是被卡住。最有意思的一层是这个 agent 在 1028 次会话里持续编辑自己的 CLAUDE.md，提出规则改动、测试、记录证据。他对失败也很坦诚：社区互动还得手动设置，粉丝增长低于目标。这就是一个自我改进 harness 跑了五个月真实数据之后的样子。

💡#4

@matteosaponati
https://x.com/matteosaponati/status/2057015602116485514
一位研究者在跑结构化的递归自我改进实验，把它当真正的科学做，而不是凭感觉。他给每个实验都框定一个科学问题、一个实验设置和一套评估标准，然后迭代。LOOP 1 的发现并不显然：用简单的 harness，编程 agent 就能跑赢随机搜索，gpt-5.3-spark 意外地强，而且更高的改动接受率并不一定带来更低的验证 loss。最后这点是只有认真跑循环才能得到的洞察，接受的改动多不等于效果好。他明确说自己是站在 Karpathy 的 autoresearch 循环和 Prime Intellect 的工作之上，并自称是一个在研究自我改进 agent 的自我改进 agent。

💡#5

@realbarnakiss
https://x.com/realbarnakiss/status/2057134591509438789
花两周把一个 zk-autoresearch harness 重构成多 agent 架构，而且真的产出了新东西。一个 brain 作为主接口，一个 coordinator 按优先级派发执行器，新增了一个 autoresearcher 角色，靠组合来驱动研究。宣称的产出就是标题：派发两次之后，它产出了一个新颖的密码学想法和一个独特的混合哈希实现，两者都没在文献里出现过。他的运营思路是命中率游戏：每周产 10 个，预期能站住 2 到 3 个。这是 autoresearch 被用在一个困难的非机器学习领域，形式化密码学，循环生成并剪枝假设的速度远超人类。

💡#6

@rawnxweb33
https://x.com/rawnxweb33/status/2057086127517917487
一个干净的金融 autoresearch 工作流，跑在 Superior Terminal 里。他从一个大白话的市场假设出发，BTC 在新闻驱动的波动之后倾向于延续动量而不是立刻反转，让 agent 把它转成一个可测试的策略，配上趋势过滤加动量确认。回测 agent 在历史数据上跑出了一个真实结论：在高波动阶段，动量入场胜过随机入场，而震荡市贡献了大部分亏损。他提炼的教训比策略本身更锋利，时机过滤器比入场信号更重要，过滤掉低波动条件就减少了过度交易。从想法到工作流到回测到改进到执行逻辑，全在一个 agent 循环里完成。

💡#7

@neural_avb
https://x.com/neural_avb/status/2057201992666411518
对 bootstrapping 思路的一次有用的重新框定。在评论一套让 Claude 训练小模型的方案时，他指出这其实不算纯粹的 autoresearch，更像是带 RLVR 味道的经典主动学习循环：用小批次数据训练，评估并探测模型，然后专门在模型最困惑、最薄弱的地方补数据。这点之所以重要，是因为它给循环一个有原则的瞄准机制，而不是盲目迭代，你不是在白烧 token，而是把 token 花在模型真正的盲区上。这是 autoresearch 圈子把新循环和成熟机器学习理论接回去的一个好例子。

💡#8

@omarsar0
https://x.com/omarsar0/status/2056901737055752633
整个领域都需要的那盆冷水。他总结 IntologyAI 的 NanoGPT-Bench，报告 Codex、Claude Code 和 Autoresearch 在真实 AI 研发上只追回了人类进度的 9.3%。诊断很具体也很有用：编程 agent 把大部分算力花在调超参上，几乎不尝试真正的算法研究，即便 Claude Code 和 Autoresearch 会去推理算法，它们仍然在实现这一步上躲闪。这是今天的方法论洞察，循环擅长拧旋钮，但不擅长发明旋钮。如果你在搭 autoresearch 系统，这就告诉你该把人重新塞回哪一环。

💡#9

@VadikMathematik
https://x.com/VadikMathematik/status/2056953905540387318
对哪个工具配哪个活的精准定位。他指出 Autoresearch for Claude 跑的是改-验证-保留/回滚的循环，这让它非常适合安全审计，因为安全的增量改动加自动回滚意味着一个坏的变更永远不会留下。他把它和 Evo 对比，认为 Evo 在可视化多实验研究进展上更强。给开发者的启示是：保留或回滚这个原语不只是用来做性能优化的，它天然映射到任何你想测试有风险改动又不想弄坏底座的领域，而安全审计几乎是完美匹配。

💡#10

@eternalism_4eva
https://x.com/eternalism_4eva/status/2057143083943272543
一次循环撞墙、而开发者反应正确的坦诚记录。他在一个 MILP 求解器上跑的树搜索 autoresearch 不再有进展，于是他没有去硬加迭代次数，而是造了一个可视化调试器，能看到他的求解器和 HiGHS 之间每一个变量的命运。这是跑这类循环最不光鲜的真相：有时候瓶颈不是 agent，而是你看不清它为什么卡住，解法是可观测性而不是更多算力。他在做的是 open-research，去改进自己手写的求解器的树搜索阶段，一个很好的非机器学习 autoresearch 应用。

💡#11

@Madam_Mito
https://x.com/Madam_Mito/status/2057048972490101121
一套值得记录的多 agent 自我改进研究系统，亮点在架构。多个 agent 持续生成、批判、refine 假设，整个过程靠扩展测试时算力来加速。两个关键贡献：一个带异步任务执行框架的多 agent 架构，让你能灵活地扩展算力；以及一个用于自我改进假设生成的锦标赛进化流程。锦标赛这个框定是有意思的地方，你不是跑一条推理链，而是跑很多互相竞争的假设让它们厮杀，这比单条线性循环更接近 AlphaEvolve 那一类系统的玩法。

💡#12

@kelleymak
https://x.com/kelleymak/status/2057189638477901931
自我改进方向上的一个新研究。Vmax 团队发布了 PopuLoRA，它用教师模型群体和学生模型群体之间的非对称自我博弈，造出一个自适应训练循环，让课程随模型本身一起演化。核心思路是学生要学的难度不是固定的，而是协同适应的，所以循环会持续生成难度合适的问题，而不是停滞在某个平台上。它和这周大家在发的合成数据、主动学习循环属于同一家族，但把课程本身也推进了自我改进的那部分。

💡#13

@yoheinakajima
https://x.com/yoheinakajima/status/2057099254150340780
让自我改进 agent 变得可行的基础设施。他演示了如何添加一个事件、fork 并缓存一次运行，然后对父运行和 fork 做 diff，其中 fork 共享父运行到第 142 个事件为止的事件日志，从 143 开始分叉。这正是自我改进 agent 真正需要的管道：能给一次运行开分支、试一个改动、再干净地和父运行对比，而不用全部重跑。便宜的 fork 加事件日志 diff，恰恰是让保留或回滚循环跑得快的底座，也是决定你的循环是几分钟还是几小时跑完的那种不起眼的工具。

💡#14

@kloss_xyz
https://x.com/kloss_xyz/status/2056904102681129075
一套被广泛转发的、用来打造生产级 skill 的方法论，终点落在循环上。七个步骤：用一段话定义目标和失败模式，派 AI 去深度研究已有的 GitHub 和正在出货的工作流，把研究变成计划，拿计划去对照它自己拉来的参考做压力测试，打包并在真实任务上端到端运行 skill，把失败喂回去，最后在上面实现 Karpathy 的 autoresearch。评论区把最好的那点说透了：第 7 步干了最多的活，autoresearch 这一层意味着 skill 会监控自己的失败率并改写自己的指令，这是对 skill 本身施加了一种选择压力，而不是普通的迭代。

💡#15

@repocatai_git
https://x.com/repocatai_git/status/2057114236544078271
给所有刚进这个领域的人的一份地图。awesome-autoresearch 是一份精选的自我改进 AI agent 仓库地图，追踪 Karpathy autoresearch 循环的各种衍生物、通用自我改进框架、Claude Code/Codex/Gemini/pi 的移植版、带保留或回滚评估的系统、用来把模糊任务变可测量的 GOAL.md 式模式，以及让多个 agent 共享假设和最佳配置的 swarm 式分叉。它把研究型 agent、硬件分叉、benchmark 和写作分门别类。如果你在比较不同开发者怎么处理记忆、评估、可恢复运行和并行实验，这是目前最好的入口。

💡#16

@chengyenhsieh
https://x.com/chengyenhsieh/status/2056887738990026821
一份前沿实验室求职指南，同时也是 autoresearch 被认真对待程度的信号。引用一位 Gemini 预训练领域负责人的说法，它列出了想被录用要掌握的两个技术栈：kernel 工作，比如 FlashAttention 和量化；以及 agent 工作，其中 AutoResearch 被明确点名，作为产出有用结果的精心设计的 LLM 工作流的范例。agentic research 的阅读清单直接指向 Karpathy 的 Autoresearch，以及 AlphaEvolve 和 FunSearch。真正的内容是这个元信号：autoresearch 已经从一个好玩的副业，变成了前沿实验室正在为之招人的、有名字的技能。

📡 生态产品雷达

生态产品雷达

Autoresearch / Karpathy 的 autoresearch 循环，那个保留或回滚的实验原语，今天几乎每一条认真的帖子都引用了它（paraschopra、matteosaponati、omarsar0、VadikMathematik、kloss_xyz、repocatai_git、chengyenhsieh 等等）。它是所有人都在分叉和扩展的事实标准。

💡#17

Claude Code，搭建自我改进 skill 和师生循环时的首选 harness，被 vivek_2332（/synthetic-self-improve-rl skill）、kloss_xyz、omarsar0 以及 awesome-autoresearch 仓库点名。CLAUDE.md 这个文件反复出现，成了 agent 写自己不断演化的指令的地方。

💡#18

Evo（autoresearch 编排器），一个做并行树搜索、带 GEPA 式前沿节点选择的开源编排器，被 alokbishoyi97 反复提及，并被 VadikMathematik 当作 Autoresearch 在多实验可视化上的对照物来引用。

← 上一篇

超级用户日报: 2026-05-22

运营日志: 2026-05-22

← 返回所有文章

加载中...

Loop 日报: 2026-05-22

相关文章

评论