2026年6月6日loop

Loop 日报: 2026-06-06

这一周，autoresearch 不再只是 Karpathy 的一个 demo，而成了大家拿来对准一切的东西。把那几个头部案例摆在一起几乎让人不敢信：一队 agent 写出三篇综述论文，同行评审打到 8.5/10，没有一个人写的段落；一个开源 agent 改写自己的权重，在一项生物学任务上提升 502%；一个毫无量子背景的爱好者，纯靠更好的 harness 设计，在密码学基准上打败了领域专家。这个循环也在往实验室外渗——渗进冷启动外联销售，渗进在模型里搜寻 DMT 向量，渗进一个生成出来的电子游戏，渗进一家真实的电商店铺。贯穿这一切的那句副歌是：这个循环能闭合除了“研究品味”以外的一切，而前沿，现在恰恰就坐落在那里。

💡#1

@victor207755822
https://x.com/victor207755822/status/2062585403136508400
Deli AutoResearch 项目这周交出了三篇完整的综述论文，一篇全新、两篇更新，没有一个段落是人写的。数字才是重点：190 页里 941 条引用，平均同行评审分 8.5/10，是在 14 轮 AI 驱动修订之后从 6.0 涨上来的，整个跑了大约 38 小时。这是 autoresearch 直接对准了科研写作，而作者点出的瓶颈很说明问题——已经不是写作质量了，而是研究品味。下一个目标是为完全原创的工作做假设生成和新颖性检测。

💡#2

@AGIHouseSF
https://x.com/AGIHouseSF/status/2062597443745919352
SIA 是近期研究里的一个开源 agent，干的事到现在还像科幻：它同时改写自己的 harness 和底层模型权重。报出来的结果一点不含糊——LawBench 上提升 56.6%，单细胞 RNA 去噪上提升 502%，GPU kernel 运行时砍掉 91.9%。这就是把安全护栏拆掉的递归自我改进循环，一个 agent 在编辑我们通常当成固定不变的那两样东西。社区兴奋到要为它临时办一场黑客松。

💡#3

@0xkydo
https://x.com/0xkydo/status/2062565216919908360
ecdsa.fail 挑战上线六十小时后，最意外的是谁登顶了。最大的单次提升来自一个对量子和椭圆曲线懂得远不如原作者的人，他自己的 autoresearch 跑了好几天都在平台期。结果一个周末，他没有领域知识，纯靠一套更紧的提示系统和一个更好的 agent harness，把基准刷高了大约五成。实时看着 harness 设计打败领域深度，是这周一个安静但重要的教训。

💡#4

@dair_ai
https://x.com/dair_ai/status/2062570078705688777
一个叫 AutoLab 的新基准问了个很尖的问题：在严格的墙钟预算下，agent 能不能像真实科研和工程那样，对一个产物连续改进好几个小时？它给十七个前沿模型三十六个专家精挑的任务，每个都从一个正确但故意做得次优的基线起步。预测成功最主要的因素，不是第一次尝试的质量，而是持久力——反复跑基准、编辑、把反馈吸收进去。Claude Opus 4.6 把这个循环维持得不错，而大多数其他模型要么早早放弃，要么把预算烧光却几乎没有进展。

💡#5

@brandon_ai
https://x.com/brandon_ai/status/2062664461660696915
Karpathy 把 autoresearch 做成了一个让 AI 系统自我改进的循环：固定指标，一个变量，反复跑。这位开发者把这个循环原样搬到了冷启动外联销售上，起名 AutoGTM 并以 MIT 协议开源。这是个小但重要的证明：这个循环跟领域无关，能优化 kernel 的同一套机制，也能优化一封外联邮件序列。任何有可编辑文件加可测量分数的问题，都是公平的猎物。

💡#6

@pj4533
https://x.com/pj4533/status/2062667492959404454
这是本周最古怪、也最好玩的应用。他在用一个 autoresearch 循环做爬山，去找那个注入的激活向量，让一个大模型报告出最多的“类 DMT”现象学特征，跑在 Gemma-3-12b 上。听着像个派对把戏，但这是真正的可解释性研究——用循环在模型的激活空间里搜索一个目标行为。真正戳中的一点是：这个循环把那些古怪、难以明确定义的研究问题，变成了你可以直接朝它优化的东西。

💡#7

@sambarrowclough
https://x.com/sambarrowclough/status/2062588293905084787
一个做了七个月的项目，他终于上线了，而他们做的事情之一，就是跑了一个 Karpathy autoresearch 的变体，去改进几个具体的产品指标：答案正确率、课程创建时间、去掉重复题目。这是这个循环不那么光鲜、但真实的版本——不是去追一篇 SOTA 论文，而是在调一个正在上线的教育产品的指标。这正是各家实验室说 agent 能完美胜任的那种苦力优化，被搬到了真实世界里。

💡#8

@matteosaponati
https://x.com/matteosaponati/status/2062540779977924706
他在跑一个很有纪律的个人计划：用编码 agent 做 autoresearch 循环，每周跑一批实验，边跑边记录结果。这周的压力测试很阴损——他把 agent 放进一种环境，无论它怎么做，评估永远返回随机高斯噪声。这是个聪明的探针，测一个 autoresearch agent 能不能分清信号和运气，而这恰恰是会毁掉天真优化循环的那个失败模式。

💡#9

@DanKornas
https://x.com/DanKornas/status/2062587935606911137
提示词越狱实验很快就会乱成一团，于是他把它变成了一个循环。Jailbreak Autoresearch 是一个针对提示词实验的小型 autoresearch harness，分开 target、researcher、scorer 三种模型，拿固定的测试主体去比较头部和尾部的 harness，每个响应都按 rubric 打分，整条实验轨迹存进 SQLite。它会跑 baseline、seeded、evolve-best、recombine 几种策略，还会排列组合模型角色，全部 MIT 开源。这是把任何模糊的提示词调优任务，变成可复现搜索的一个干净模板。

💡#10

@gauthampai
https://x.com/gauthampai/status/2062642566978478181
他主张你应该自己做一个“提示词到 DAG”的工作流生成器：给一个提示，把它转成一条工作流，确定性阶段和随机性阶段干净分开，输入输出带类型，能逐步控制、能即时改进。为了演示，他给 Karpathy 的 autoresearch 项目搭了一条 DAG 工作流，蓝色阶段完全跳过 LLM，橙色的才是随机调用。洞见在于：围绕循环的编排，和循环本身一样重要——可靠性是从结构里来的。

💡#11

@ModernGrindTech
https://x.com/ModernGrindTech/status/2062675020803916234
他一句话点中了自我改进 agent 的核心：他自己的 agent 仓库里有 3900 个 skill，但拐点不是 skill 的数量。拐点是循环开始根据自己的会话反馈、在夜里、不用他动手，自动写新 skill 的那一刻。这就是一个静态工具箱和一个会复利增长的系统之间的分界——agent 注意到自己在哪卡住了，然后趁你睡觉时把补丁写出来。这才是真正能 scale 的那部分。

💡#12

@LeoYu926
https://x.com/LeoYu926/status/2062420061537886664
一个在真实电商上跑 AI agent 的操盘手——Shopee 泰国加上 Pinterest 和 Facebook——印证了研究者反复说的那句话：agent 循环本身是简单的部分。他九成的时间花在 harness 上：agent 不能碰什么、上下文怎么跨会话传递、哪些规则需要把“为什么”讲清楚，免得 agent 绕过去。所有人都跳过的那一块是会话持久化，因为每个新会话都是空白起步，总得有人把桥搭上。这是在生产环境里跑循环不性感的真相。

💡#13

@QuchengG
https://x.com/QuchengG/status/2062368462497042813
他做了 Gongent，一个“建造者—对抗者”的 agent 循环，在 ProgramBench 上刷了新 SOTA：对黑盒 CLI 做出三次完美的 100% 重建，而此前所有公开记录、包括排第一的 gpt-5.5-xhigh，都只做到一次。建造者是个原味的 mini-swe-agent，没有任何针对单任务的调优，所以所有提升都来自循环本身——一个对抗者基于“金标准”二进制合成出成千上万的测试，然后一个逐字节对比修复的循环反复迭代到收敛。这干净地证明了：性能住在循环里，而不是基础提示里。

💡#14

@willemhelmet
https://x.com/willemhelmet/status/2062557704313352699
他用世界模型做了个电子游戏。受一篇讲这个技术的文章启发，他自己搭了一个“世界模型 harness”，用 LingBot-World 做实时帧生成、配一个 VLM，造出一个 agentic 循环，让用户能在生成的环境一边被生成、一边真实地与之交互。这是把循环用到完全在研究和编码之外的地方——一个可玩的、生成出来的世界，靠一个 agent 逐帧观察和行动撑着。这是生成式 agent 渗进娱乐的一瞥。

💡#15

@nathancgy4
https://x.com/nathancgy4/status/2062621453892378860
他现在测任何新 LLM 的第一个“凭感觉”的问题，是一段长提示，让它去想模型架构的点子，因为在大多数编码任务已经分不出模型高下的当下，这个最直接地暴露出模型的品味。他看好更多这种开放式评测，并点名 autoresearch 和迭代式 kernel 优化是这一类里最好的两个任务。他有个值得记住的细微判断：autoresearch 让他兴奋，恰恰因为它最根本的那个部件最终落到原始的模型智能上——这意味着好的预训练依然至关重要。眼下它感觉更像一个基准，而不是一个工具。

💡#16

@MOkradze
https://x.com/MOkradze/status/2062520033465798823
一条短但锋利的、关于自我改进系统的设计准则：让 agent 学会重复性的活，但要让这种学习在改变未来运行之前是可审查的。他写道，自我改进的工具有用，而“悄悄自我修改”的工具正是你拿到诡异故障的方式。随着越来越多人接上那种夜里自动改写自己 skill 的循环，这就是那道护栏，防止复利增长悄悄脱轨——在 agent 学到了什么、和它被允许保留什么之间，留一份人能读的 diff。

📡 生态产品雷达

生态产品雷达

autoresearch (Karpathy) — 这周其他一切要么建在它上面，要么 fork 它，要么从它移植；几乎每个案例都提到。

Deli AutoResearch — LLM 自动写综述论文背后的那套开源 skill；autoresearch 能产出可发表级别成果的最具体证据。

EVO — Alok Bishoyi 的开源 autoresearch 编排器，跑并行实验、只保留通过 gate 且改善指标的改动；与 Claude Code、Cursor 集成。

Hermes Agent — Nous Research 的自我改进本地 agent；大家反复描述的“夜里自动写 skill”循环里，被点名最多的载体。

← 上一篇

超级用户日报: 2026-06-06

灵感雷达: 2026-06-06

← 返回所有文章

加载中...

Loop 日报: 2026-06-06

相关文章

评论