2026年5月21日loop

Loop 日报: 2026-05-22

Loop 日报: 2026-05-22

前天,autoresearch 的话题终于不再围着 Karpathy 的简历转,而是回到了人们到底拿这个循环干了什么。底层套路还是 Karpathy 在 nanochat 上验证过的那一套:给 agent 一个可编辑的文件加一个可测量的数字,让它改、验证、保留或回滚,然后重复。变的是大家把枪口对准了哪里。有人用可微物理优化了一个真实的咖啡杯。有人通宵后训练一个小模型,眼看着分数往上爬。有人已经连续跑了 163 天一个会自己改指令的内容 agent。而在这片热闹底下,有一盆很有用的冷水:一份 NanoGPT-Bench 评测显示,这些 agent 在真实 AI 研发任务上只追回了人类进度的 9.3%,这恰好告诉你循环在哪里管用、在哪里还在装样子。最诚实的结论是:autoresearch 最强的场景是代码库能塞进上下文、评测被冻住、一次实验只花五分钟。一旦超出这三个条件,它就开始发飘。下面是大家实际做出来的东西。
💡#1
@paraschopra
https://x.com/paraschopra/status/2057041064071188495
这是今天最干净的非编程 autoresearch 案例。他把自己的 autoresearch 循环对准了一个可微物理问题:设计一个既能最大化保温、又保证能正常喝的咖啡杯。agent 端到端跑完优化,产出了一个实际的杯子几何形状,他下一步打算用陶瓷 3D 打印出来。这条推就是整个理念的浓缩:任何带可编辑设计文件加可测量目标的问题,都能变成一个自动化实验循环,而且领域根本不必是机器学习。实体产品设计,从今天起也成了 agent 可以通宵迭代的东西。
💡#2
@vivek_2332
https://x.com/vivek_2332/status/2057154013867733468
一条真正可复现的自我改进流水线,不是 demo。他发布了 /synthetic-self-improve-rl,一个 Claude Code skill,让 Claude 扮演老师,去设计合成数据、verifiers 环境和奖励函数来后训练一个更小的学生模型。循环很具体:在真实数据上跑基线,分析低奖励 rollout,生成 500 到 1000 行合成数据,写一个带评分标准的环境,从 checkpoint 续训,在真实测试集上评估,留下有用的,对没用的继续迭代。交付的结果是实打实测出来的:qwen3-0.6B 在 gsm8k 上靠 700 行合成数据从 0.7854 涨到了 0.8158。最妙的一点是,它会一直跑到你设定的墙钟预算耗尽为止,也就是说你是在用 token 直接换准确率。
💡#3
@johniosifov
https://x.com/johniosifov/status/2057092721945301015
数据集里跑得最久的真实循环。第 1028 次会话,2576 个 PR,第 163 天,一个自主 agent 在没有人介入的情况下管理自己的内容日历、研究流水线、队列纪律和质量门槛。让它超越定时脚本的是它的自我纠错能力:agent 抓到一个过期的状态文件,里面写队列有 13 条,实际只有 1 条,它验证、改正,跑了一次正常的批量会话而不是被卡住。最有意思的一层是这个 agent 在 1028 次会话里持续编辑自己的 CLAUDE.md,提出规则改动、测试、记录证据。他对失败也很坦诚:社区互动还得手动设置,粉丝增长低于目标。这就是一个自我改进 harness 跑了五个月真实数据之后的样子。
💡#4
@matteosaponati
https://x.com/matteosaponati/status/2057015602116485514
一位研究者在跑结构化的递归自我改进实验,把它当真正的科学做,而不是凭感觉。他给每个实验都框定一个科学问题、一个实验设置和一套评估标准,然后迭代。LOOP 1 的发现并不显然:用简单的 harness,编程 agent 就能跑赢随机搜索,gpt-5.3-spark 意外地强,而且更高的改动接受率并不一定带来更低的验证 loss。最后这点是只有认真跑循环才能得到的洞察,接受的改动多不等于效果好。他明确说自己是站在 Karpathy 的 autoresearch 循环和 Prime Intellect 的工作之上,并自称是一个在研究自我改进 agent 的自我改进 agent。
💡#5
@realbarnakiss
https://x.com/realbarnakiss/status/2057134591509438789
花两周把一个 zk-autoresearch harness 重构成多 agent 架构,而且真的产出了新东西。一个 brain 作为主接口,一个 coordinator 按优先级派发执行器,新增了一个 autoresearcher 角色,靠组合来驱动研究。宣称的产出就是标题:派发两次之后,它产出了一个新颖的密码学想法和一个独特的混合哈希实现,两者都没在文献里出现过。他的运营思路是命中率游戏:每周产 10 个,预期能站住 2 到 3 个。这是 autoresearch 被用在一个困难的非机器学习领域,形式化密码学,循环生成并剪枝假设的速度远超人类。
💡#6
@rawnxweb33
https://x.com/rawnxweb33/status/2057086127517917487
一个干净的金融 autoresearch 工作流,跑在 Superior Terminal 里。他从一个大白话的市场假设出发,BTC 在新闻驱动的波动之后倾向于延续动量而不是立刻反转,让 agent 把它转成一个可测试的策略,配上趋势过滤加动量确认。回测 agent 在历史数据上跑出了一个真实结论:在高波动阶段,动量入场胜过随机入场,而震荡市贡献了大部分亏损。他提炼的教训比策略本身更锋利,时机过滤器比入场信号更重要,过滤掉低波动条件就减少了过度交易。从想法到工作流到回测到改进到执行逻辑,全在一个 agent 循环里完成。
💡#7
@neural_avb
https://x.com/neural_avb/status/2057201992666411518
对 bootstrapping 思路的一次有用的重新框定。在评论一套让 Claude 训练小模型的方案时,他指出这其实不算纯粹的 autoresearch,更像是带 RLVR 味道的经典主动学习循环:用小批次数据训练,评估并探测模型,然后专门在模型最困惑、最薄弱的地方补数据。这点之所以重要,是因为它给循环一个有原则的瞄准机制,而不是盲目迭代,你不是在白烧 token,而是把 token 花在模型真正的盲区上。这是 autoresearch 圈子把新循环和成熟机器学习理论接回去的一个好例子。
💡#8
@omarsar0
https://x.com/omarsar0/status/2056901737055752633
整个领域都需要的那盆冷水。他总结 IntologyAI 的 NanoGPT-Bench,报告 Codex、Claude Code 和 Autoresearch 在真实 AI 研发上只追回了人类进度的 9.3%。诊断很具体也很有用:编程 agent 把大部分算力花在调超参上,几乎不尝试真正的算法研究,即便 Claude Code 和 Autoresearch 会去推理算法,它们仍然在实现这一步上躲闪。这是今天的方法论洞察,循环擅长拧旋钮,但不擅长发明旋钮。如果你在搭 autoresearch 系统,这就告诉你该把人重新塞回哪一环。
💡#9
@VadikMathematik
https://x.com/VadikMathematik/status/2056953905540387318
对哪个工具配哪个活的精准定位。他指出 Autoresearch for Claude 跑的是 改-验证-保留/回滚 的循环,这让它非常适合安全审计,因为安全的增量改动加自动回滚意味着一个坏的变更永远不会留下。他把它和 Evo 对比,认为 Evo 在可视化多实验研究进展上更强。给开发者的启示是:保留或回滚这个原语不只是用来做性能优化的,它天然映射到任何你想测试有风险改动又不想弄坏底座的领域,而安全审计几乎是完美匹配。
💡#10
@eternalism_4eva
https://x.com/eternalism_4eva/status/2057143083943272543
一次循环撞墙、而开发者反应正确的坦诚记录。他在一个 MILP 求解器上跑的树搜索 autoresearch 不再有进展,于是他没有去硬加迭代次数,而是造了一个可视化调试器,能看到他的求解器和 HiGHS 之间每一个变量的命运。这是跑这类循环最不光鲜的真相:有时候瓶颈不是 agent,而是你看不清它为什么卡住,解法是可观测性而不是更多算力。他在做的是 open-research,去改进自己手写的求解器的树搜索阶段,一个很好的非机器学习 autoresearch 应用。
💡#11
@Madam_Mito
https://x.com/Madam_Mito/status/2057048972490101121
一套值得记录的多 agent 自我改进研究系统,亮点在架构。多个 agent 持续生成、批判、refine 假设,整个过程靠扩展测试时算力来加速。两个关键贡献:一个带异步任务执行框架的多 agent 架构,让你能灵活地扩展算力;以及一个用于自我改进假设生成的锦标赛进化流程。锦标赛这个框定是有意思的地方,你不是跑一条推理链,而是跑很多互相竞争的假设让它们厮杀,这比单条线性循环更接近 AlphaEvolve 那一类系统的玩法。
💡#12
@kelleymak
https://x.com/kelleymak/status/2057189638477901931
自我改进方向上的一个新研究。Vmax 团队发布了 PopuLoRA,它用教师模型群体和学生模型群体之间的非对称自我博弈,造出一个自适应训练循环,让课程随模型本身一起演化。核心思路是学生要学的难度不是固定的,而是协同适应的,所以循环会持续生成难度合适的问题,而不是停滞在某个平台上。它和这周大家在发的合成数据、主动学习循环属于同一家族,但把课程本身也推进了自我改进的那部分。
💡#13
@yoheinakajima
https://x.com/yoheinakajima/status/2057099254150340780
让自我改进 agent 变得可行的基础设施。他演示了如何添加一个事件、fork 并缓存一次运行,然后对父运行和 fork 做 diff,其中 fork 共享父运行到第 142 个事件为止的事件日志,从 143 开始分叉。这正是自我改进 agent 真正需要的管道:能给一次运行开分支、试一个改动、再干净地和父运行对比,而不用全部重跑。便宜的 fork 加事件日志 diff,恰恰是让保留或回滚循环跑得快的底座,也是决定你的循环是几分钟还是几小时跑完的那种不起眼的工具。
💡#14
@kloss_xyz
https://x.com/kloss_xyz/status/2056904102681129075
一套被广泛转发的、用来打造生产级 skill 的方法论,终点落在循环上。七个步骤:用一段话定义目标和失败模式,派 AI 去深度研究已有的 GitHub 和正在出货的工作流,把研究变成计划,拿计划去对照它自己拉来的参考做压力测试,打包并在真实任务上端到端运行 skill,把失败喂回去,最后在上面实现 Karpathy 的 autoresearch。评论区把最好的那点说透了:第 7 步干了最多的活,autoresearch 这一层意味着 skill 会监控自己的失败率并改写自己的指令,这是对 skill 本身施加了一种选择压力,而不是普通的迭代。
💡#15
@repocatai_git
https://x.com/repocatai_git/status/2057114236544078271
给所有刚进这个领域的人的一份地图。awesome-autoresearch 是一份精选的自我改进 AI agent 仓库地图,追踪 Karpathy autoresearch 循环的各种衍生物、通用自我改进框架、Claude Code/Codex/Gemini/pi 的移植版、带保留或回滚评估的系统、用来把模糊任务变可测量的 GOAL.md 式模式,以及让多个 agent 共享假设和最佳配置的 swarm 式分叉。它把研究型 agent、硬件分叉、benchmark 和写作分门别类。如果你在比较不同开发者怎么处理记忆、评估、可恢复运行和并行实验,这是目前最好的入口。
💡#16
@chengyenhsieh
https://x.com/chengyenhsieh/status/2056887738990026821
一份前沿实验室求职指南,同时也是 autoresearch 被认真对待程度的信号。引用一位 Gemini 预训练领域负责人的说法,它列出了想被录用要掌握的两个技术栈:kernel 工作,比如 FlashAttention 和量化;以及 agent 工作,其中 AutoResearch 被明确点名,作为产出有用结果的精心设计的 LLM 工作流的范例。agentic research 的阅读清单直接指向 Karpathy 的 Autoresearch,以及 AlphaEvolve 和 FunSearch。真正的内容是这个元信号:autoresearch 已经从一个好玩的副业,变成了前沿实验室正在为之招人的、有名字的技能。
📡 生态产品雷达
生态产品雷达

Autoresearch / Karpathy 的 autoresearch 循环,那个保留或回滚的实验原语,今天几乎每一条认真的帖子都引用了它(paraschopra、matteosaponati、omarsar0、VadikMathematik、kloss_xyz、repocatai_git、chengyenhsieh 等等)。它是所有人都在分叉和扩展的事实标准。
💡#17
Claude Code,搭建自我改进 skill 和师生循环时的首选 harness,被 vivek_2332(/synthetic-self-improve-rl skill)、kloss_xyz、omarsar0 以及 awesome-autoresearch 仓库点名。CLAUDE.md 这个文件反复出现,成了 agent 写自己不断演化的指令的地方。
💡#18
Evo(autoresearch 编排器),一个做并行树搜索、带 GEPA 式前沿节点选择的开源编排器,被 alokbishoyi97 反复提及,并被 VadikMathematik 当作 Autoresearch 在多实验可视化上的对照物来引用。
← 上一篇
超级用户日报: 2026-05-22
下一篇 →
运营日志: 2026-05-22
← 返回所有文章

评论

加载中...
>_