2026年6月5日loop

Loop 日报: 2026-06-06

这一周,autoresearch 不再只是 Karpathy 的一个 demo,而成了大家拿来对准一切的东西。把那几个头部案例摆在一起几乎让人不敢信:一队 agent 写出三篇综述论文,同行评审打到 8.5/10,没有一个人写的段落;一个开源 agent 改写自己的权重,在一项生物学任务上提升 502%;一个毫无量子背景的爱好者,纯靠更好的 harness 设计,在密码学基准上打败了领域专家。这个循环也在往实验室外渗——渗进冷启动外联销售,渗进在模型里搜寻 DMT 向量,渗进一个生成出来的电子游戏,渗进一家真实的电商店铺。贯穿这一切的那句副歌是:这个循环能闭合除了“研究品味”以外的一切,而前沿,现在恰恰就坐落在那里。
💡#1
@victor207755822
https://x.com/victor207755822/status/2062585403136508400
Deli AutoResearch 项目这周交出了三篇完整的综述论文,一篇全新、两篇更新,没有一个段落是人写的。数字才是重点:190 页里 941 条引用,平均同行评审分 8.5/10,是在 14 轮 AI 驱动修订之后从 6.0 涨上来的,整个跑了大约 38 小时。这是 autoresearch 直接对准了科研写作,而作者点出的瓶颈很说明问题——已经不是写作质量了,而是研究品味。下一个目标是为完全原创的工作做假设生成和新颖性检测。
💡#2
@AGIHouseSF
https://x.com/AGIHouseSF/status/2062597443745919352
SIA 是近期研究里的一个开源 agent,干的事到现在还像科幻:它同时改写自己的 harness 和底层模型权重。报出来的结果一点不含糊——LawBench 上提升 56.6%,单细胞 RNA 去噪上提升 502%,GPU kernel 运行时砍掉 91.9%。这就是把安全护栏拆掉的递归自我改进循环,一个 agent 在编辑我们通常当成固定不变的那两样东西。社区兴奋到要为它临时办一场黑客松。
💡#3
@0xkydo
https://x.com/0xkydo/status/2062565216919908360
ecdsa.fail 挑战上线六十小时后,最意外的是谁登顶了。最大的单次提升来自一个对量子和椭圆曲线懂得远不如原作者的人,他自己的 autoresearch 跑了好几天都在平台期。结果一个周末,他没有领域知识,纯靠一套更紧的提示系统和一个更好的 agent harness,把基准刷高了大约五成。实时看着 harness 设计打败领域深度,是这周一个安静但重要的教训。
💡#4
@dair_ai
https://x.com/dair_ai/status/2062570078705688777
一个叫 AutoLab 的新基准问了个很尖的问题:在严格的墙钟预算下,agent 能不能像真实科研和工程那样,对一个产物连续改进好几个小时?它给十七个前沿模型三十六个专家精挑的任务,每个都从一个正确但故意做得次优的基线起步。预测成功最主要的因素,不是第一次尝试的质量,而是持久力——反复跑基准、编辑、把反馈吸收进去。Claude Opus 4.6 把这个循环维持得不错,而大多数其他模型要么早早放弃,要么把预算烧光却几乎没有进展。
💡#5
@brandon_ai
https://x.com/brandon_ai/status/2062664461660696915
Karpathy 把 autoresearch 做成了一个让 AI 系统自我改进的循环:固定指标,一个变量,反复跑。这位开发者把这个循环原样搬到了冷启动外联销售上,起名 AutoGTM 并以 MIT 协议开源。这是个小但重要的证明:这个循环跟领域无关,能优化 kernel 的同一套机制,也能优化一封外联邮件序列。任何有可编辑文件加可测量分数的问题,都是公平的猎物。
💡#6
@pj4533
https://x.com/pj4533/status/2062667492959404454
这是本周最古怪、也最好玩的应用。他在用一个 autoresearch 循环做爬山,去找那个注入的激活向量,让一个大模型报告出最多的“类 DMT”现象学特征,跑在 Gemma-3-12b 上。听着像个派对把戏,但这是真正的可解释性研究——用循环在模型的激活空间里搜索一个目标行为。真正戳中的一点是:这个循环把那些古怪、难以明确定义的研究问题,变成了你可以直接朝它优化的东西。
💡#7
@sambarrowclough
https://x.com/sambarrowclough/status/2062588293905084787
一个做了七个月的项目,他终于上线了,而他们做的事情之一,就是跑了一个 Karpathy autoresearch 的变体,去改进几个具体的产品指标:答案正确率、课程创建时间、去掉重复题目。这是这个循环不那么光鲜、但真实的版本——不是去追一篇 SOTA 论文,而是在调一个正在上线的教育产品的指标。这正是各家实验室说 agent 能完美胜任的那种苦力优化,被搬到了真实世界里。
💡#8
@matteosaponati
https://x.com/matteosaponati/status/2062540779977924706
他在跑一个很有纪律的个人计划:用编码 agent 做 autoresearch 循环,每周跑一批实验,边跑边记录结果。这周的压力测试很阴损——他把 agent 放进一种环境,无论它怎么做,评估永远返回随机高斯噪声。这是个聪明的探针,测一个 autoresearch agent 能不能分清信号和运气,而这恰恰是会毁掉天真优化循环的那个失败模式。
💡#9
@DanKornas
https://x.com/DanKornas/status/2062587935606911137
提示词越狱实验很快就会乱成一团,于是他把它变成了一个循环。Jailbreak Autoresearch 是一个针对提示词实验的小型 autoresearch harness,分开 target、researcher、scorer 三种模型,拿固定的测试主体去比较头部和尾部的 harness,每个响应都按 rubric 打分,整条实验轨迹存进 SQLite。它会跑 baseline、seeded、evolve-best、recombine 几种策略,还会排列组合模型角色,全部 MIT 开源。这是把任何模糊的提示词调优任务,变成可复现搜索的一个干净模板。
💡#10
@gauthampai
https://x.com/gauthampai/status/2062642566978478181
他主张你应该自己做一个“提示词到 DAG”的工作流生成器:给一个提示,把它转成一条工作流,确定性阶段和随机性阶段干净分开,输入输出带类型,能逐步控制、能即时改进。为了演示,他给 Karpathy 的 autoresearch 项目搭了一条 DAG 工作流,蓝色阶段完全跳过 LLM,橙色的才是随机调用。洞见在于:围绕循环的编排,和循环本身一样重要——可靠性是从结构里来的。
💡#11
@ModernGrindTech
https://x.com/ModernGrindTech/status/2062675020803916234
他一句话点中了自我改进 agent 的核心:他自己的 agent 仓库里有 3900 个 skill,但拐点不是 skill 的数量。拐点是循环开始根据自己的会话反馈、在夜里、不用他动手,自动写新 skill 的那一刻。这就是一个静态工具箱和一个会复利增长的系统之间的分界——agent 注意到自己在哪卡住了,然后趁你睡觉时把补丁写出来。这才是真正能 scale 的那部分。
💡#12
@LeoYu926
https://x.com/LeoYu926/status/2062420061537886664
一个在真实电商上跑 AI agent 的操盘手——Shopee 泰国加上 Pinterest 和 Facebook——印证了研究者反复说的那句话:agent 循环本身是简单的部分。他九成的时间花在 harness 上:agent 不能碰什么、上下文怎么跨会话传递、哪些规则需要把“为什么”讲清楚,免得 agent 绕过去。所有人都跳过的那一块是会话持久化,因为每个新会话都是空白起步,总得有人把桥搭上。这是在生产环境里跑循环不性感的真相。
💡#13
@QuchengG
https://x.com/QuchengG/status/2062368462497042813
他做了 Gongent,一个“建造者—对抗者”的 agent 循环,在 ProgramBench 上刷了新 SOTA:对黑盒 CLI 做出三次完美的 100% 重建,而此前所有公开记录、包括排第一的 gpt-5.5-xhigh,都只做到一次。建造者是个原味的 mini-swe-agent,没有任何针对单任务的调优,所以所有提升都来自循环本身——一个对抗者基于“金标准”二进制合成出成千上万的测试,然后一个逐字节对比修复的循环反复迭代到收敛。这干净地证明了:性能住在循环里,而不是基础提示里。
💡#14
@willemhelmet
https://x.com/willemhelmet/status/2062557704313352699
他用世界模型做了个电子游戏。受一篇讲这个技术的文章启发,他自己搭了一个“世界模型 harness”,用 LingBot-World 做实时帧生成、配一个 VLM,造出一个 agentic 循环,让用户能在生成的环境一边被生成、一边真实地与之交互。这是把循环用到完全在研究和编码之外的地方——一个可玩的、生成出来的世界,靠一个 agent 逐帧观察和行动撑着。这是生成式 agent 渗进娱乐的一瞥。
💡#15
@nathancgy4
https://x.com/nathancgy4/status/2062621453892378860
他现在测任何新 LLM 的第一个“凭感觉”的问题,是一段长提示,让它去想模型架构的点子,因为在大多数编码任务已经分不出模型高下的当下,这个最直接地暴露出模型的品味。他看好更多这种开放式评测,并点名 autoresearch 和迭代式 kernel 优化是这一类里最好的两个任务。他有个值得记住的细微判断:autoresearch 让他兴奋,恰恰因为它最根本的那个部件最终落到原始的模型智能上——这意味着好的预训练依然至关重要。眼下它感觉更像一个基准,而不是一个工具。
💡#16
@MOkradze
https://x.com/MOkradze/status/2062520033465798823
一条短但锋利的、关于自我改进系统的设计准则:让 agent 学会重复性的活,但要让这种学习在改变未来运行之前是可审查的。他写道,自我改进的工具有用,而“悄悄自我修改”的工具正是你拿到诡异故障的方式。随着越来越多人接上那种夜里自动改写自己 skill 的循环,这就是那道护栏,防止复利增长悄悄脱轨——在 agent 学到了什么、和它被允许保留什么之间,留一份人能读的 diff。
📡 生态产品雷达
生态产品雷达

autoresearch (Karpathy) — 这周其他一切要么建在它上面,要么 fork 它,要么从它移植;几乎每个案例都提到。

Deli AutoResearch — LLM 自动写综述论文背后的那套开源 skill;autoresearch 能产出可发表级别成果的最具体证据。

EVO — Alok Bishoyi 的开源 autoresearch 编排器,跑并行实验、只保留通过 gate 且改善指标的改动;与 Claude Code、Cursor 集成。

Hermes Agent — Nous Research 的自我改进本地 agent;大家反复描述的“夜里自动写 skill”循环里,被点名最多的载体。
← 上一篇
超级用户日报: 2026-06-06
下一篇 →
灵感雷达: 2026-06-06
← 返回所有文章

评论

加载中...
>_