2026年5月26日loop

Loop 日报: 2026-05-26

对 autoresearch 这帮人来说，今天更安静、也更诚实。最响的那个单一数据点恰恰泼了热度的冷水：一个新基准说，今天的编程 agent 在真实 AI 研发上只追回了不到 10% 的人类进展，主要是因为它们都在调超参、躲开真正的算法工作。但在这个让人清醒的数字底下，真正的 loop 正在变得具体——一个 agent 改写 train.py、一小时磨十几个实验；一个 researcher loop 把越狱测试自动化了；第一批大型综述开始在"自主研究在哪儿帮得上忙、在哪儿会悄悄崩掉"之间划出硬线。今天的主题是校准：少问"它是不是什么都能干"，多说"它到底能干什么、不能干什么"。

💡#1

@rohit4verse
https://x.com/rohit4verse/status/2058841697333948858
今天最干净的一个实时 autoresearch loop。它不是固定的超参扫描，而是让 agent 改写 train.py 里任意的部分，于是搜索空间是它能发明并安全实现出来的任何东西，而不是预设好的网格。大约一小时跑 12 轮，完整的审计记录写进 results.tsv。最后这个细节很关键：一个自主实验 loop 只有在每一轮都留下可复原的纸面痕迹时，才值得信任。

💡#2

@omarsar0
https://x.com/omarsar0/status/2056901737055752633
整个领域都需要的一记现实检验。在 NanoGPT-Bench 评测上，Codex、Claude Code 和 Autoresearch 在真实 AI 研发上只追回了 9.3% 的人类进展。拆解才是有意思的部分：编程 agent 把大部分算力花在调超参上，几乎不去尝试算法研究；而 Claude Code 和 Autoresearch 虽然在算法层面想得更多，却依然躲开了实现。自我改进的 agent 是真的，但这个数字说清楚了眼下的自主性到底走到了哪一步。

💡#3

@neural_avb
https://x.com/neural_avb/status/2057201992666411518
一个真正自我改进的 loop，用在训练一个小语言模型上：bootstrap Claude 来做，但骨架其实是一个带 RLVR 变体的经典主动学习 loop。用小批数据训模型，评估并探测它，然后专挑模型最弱、最困惑的地方补新数据，循环往复。他说灵感来自 auto-research，但用主动学习的语言重新框定了它——这比"自主魔法"是个更有用的心智模型。

💡#4

@HuggingPapers
https://x.com/HuggingPapers/status/2056783143139725339
第一篇把整个 auto-research 版图画出来的综述：250 多篇论文，覆盖 AI 在完整研究生命周期里的应用，从想法生成到成果传播。它最关键的贡献是在"可靠的辅助"和"不可靠的自主"之间划出一条清晰的界线——尽管现在的系统已经能用大约 15 美元产出一整篇论文。如果你想在一头扎进自建研究 loop 之前先拿到地图，就是它了。

💡#5

@wildmindai
https://x.com/wildmindai/status/2057416041358032938
综述的配套：一份 Awesome AI Auto-Research 指南，把自动化科研生命周期完整走了一遍，还配了一个收集 agentic AI 研究论文和代码的 GitHub 仓库。它框定的正是所有人都在绕着转的那个转变——把 AI 从一个简单的助手变成一个自主的研究者，并给了你真正去动手搭的参考资料。

💡#6

@tom_doerr
https://x.com/tom_doerr/status/2058758398854795494
一个对准安全的具体 researcher-agent loop：它把 LLM 越狱实验自动化了。不再是人去手动探测一个模型的弱点，这个 loop 自己跑实验、自己迭代。这是个小而说明问题的例子——autoresearch 正从机器学习训练那个小圈子里跑出来，进入红队领域，而"实验—迭代—记录"这个循环恰好能干净地映射到对抗性测试上。

💡#7

@Vizzyy_01
https://x.com/Vizzyy_01/status/2058466337702248852
agentic loop 的非编码切面。他问：当你可以把一个申请链接丢进一个 agentic loop、几分钟内就让整套分发框架上线时，何必再花钱请一家创意公司慢吞吞地规划一套三个月的多渠道策略？这是同一个想法的营销运营版框定——把一份原本要好几周的专业交付物，压缩进一次自主运行里。

💡#8

@michelleefang
https://x.com/michelleefang/status/2059019530467422365
一个信号，说明 autoresearch 正在长成自己的生态：一场 Autoresearch Systems 黑客松，联合了 Modal、OpenAI、Raindrop 和 Antler。当基础设施玩家（Modal 出算力、OpenAI 出模型）开始围着这个品类共同赞助黑客松时，就说明这个 loop 正从个人实验，走向一套大家拿来做生意的共享工具栈。

📡 生态产品雷达

生态产品雷达

数据很薄，但指向明确。重心仍然是 Karpathy 的 autoresearch 项目，作为参考设计；Claude Code 和 Codex 是大家真正用来跑 loop 的 agent；Modal 则作为算力层，出现在黑客松场景的底下。

Autoresearch（Karpathy 的项目）— 大家拿来做基准、对照着搭的参考设计
Claude Code — 大家用来跑研究和实验 loop 的两个 agent 之一
Codex — 另一个默认的 loop 运行器，在 NanoGPT-Bench 上被正面对比
Modal — 在 autoresearch 黑客松栈底下浮现的无服务器算力层

← 上一篇

超级用户日报: 2026-05-26

灵感雷达: 2026-05-26

← 返回所有文章

加载中...

Loop 日报: 2026-05-26

相关文章

评论