Loop 日报: 2026-05-26
对 autoresearch 这帮人来说,今天更安静、也更诚实。最响的那个单一数据点恰恰泼了热度的冷水:一个新基准说,今天的编程 agent 在真实 AI 研发上只追回了不到 10% 的人类进展,主要是因为它们都在调超参、躲开真正的算法工作。但在这个让人清醒的数字底下,真正的 loop 正在变得具体——一个 agent 改写 train.py、一小时磨十几个实验;一个 researcher loop 把越狱测试自动化了;第一批大型综述开始在"自主研究在哪儿帮得上忙、在哪儿会悄悄崩掉"之间划出硬线。今天的主题是校准:少问"它是不是什么都能干",多说"它到底能干什么、不能干什么"。
#1
@rohit4verse
https://x.com/rohit4verse/status/2058841697333948858
今天最干净的一个实时 autoresearch loop。它不是固定的超参扫描,而是让 agent 改写 train.py 里任意的部分,于是搜索空间是它能发明并安全实现出来的任何东西,而不是预设好的网格。大约一小时跑 12 轮,完整的审计记录写进 results.tsv。最后这个细节很关键:一个自主实验 loop 只有在每一轮都留下可复原的纸面痕迹时,才值得信任。
https://x.com/rohit4verse/status/2058841697333948858
今天最干净的一个实时 autoresearch loop。它不是固定的超参扫描,而是让 agent 改写 train.py 里任意的部分,于是搜索空间是它能发明并安全实现出来的任何东西,而不是预设好的网格。大约一小时跑 12 轮,完整的审计记录写进 results.tsv。最后这个细节很关键:一个自主实验 loop 只有在每一轮都留下可复原的纸面痕迹时,才值得信任。
#2
@omarsar0
https://x.com/omarsar0/status/2056901737055752633
整个领域都需要的一记现实检验。在 NanoGPT-Bench 评测上,Codex、Claude Code 和 Autoresearch 在真实 AI 研发上只追回了 9.3% 的人类进展。拆解才是有意思的部分:编程 agent 把大部分算力花在调超参上,几乎不去尝试算法研究;而 Claude Code 和 Autoresearch 虽然在算法层面想得更多,却依然躲开了实现。自我改进的 agent 是真的,但这个数字说清楚了眼下的自主性到底走到了哪一步。
https://x.com/omarsar0/status/2056901737055752633
整个领域都需要的一记现实检验。在 NanoGPT-Bench 评测上,Codex、Claude Code 和 Autoresearch 在真实 AI 研发上只追回了 9.3% 的人类进展。拆解才是有意思的部分:编程 agent 把大部分算力花在调超参上,几乎不去尝试算法研究;而 Claude Code 和 Autoresearch 虽然在算法层面想得更多,却依然躲开了实现。自我改进的 agent 是真的,但这个数字说清楚了眼下的自主性到底走到了哪一步。
#3
@neural_avb
https://x.com/neural_avb/status/2057201992666411518
一个真正自我改进的 loop,用在训练一个小语言模型上:bootstrap Claude 来做,但骨架其实是一个带 RLVR 变体的经典主动学习 loop。用小批数据训模型,评估并探测它,然后专挑模型最弱、最困惑的地方补新数据,循环往复。他说灵感来自 auto-research,但用主动学习的语言重新框定了它——这比"自主魔法"是个更有用的心智模型。
https://x.com/neural_avb/status/2057201992666411518
一个真正自我改进的 loop,用在训练一个小语言模型上:bootstrap Claude 来做,但骨架其实是一个带 RLVR 变体的经典主动学习 loop。用小批数据训模型,评估并探测它,然后专挑模型最弱、最困惑的地方补新数据,循环往复。他说灵感来自 auto-research,但用主动学习的语言重新框定了它——这比"自主魔法"是个更有用的心智模型。
#4
@HuggingPapers
https://x.com/HuggingPapers/status/2056783143139725339
第一篇把整个 auto-research 版图画出来的综述:250 多篇论文,覆盖 AI 在完整研究生命周期里的应用,从想法生成到成果传播。它最关键的贡献是在"可靠的辅助"和"不可靠的自主"之间划出一条清晰的界线——尽管现在的系统已经能用大约 15 美元产出一整篇论文。如果你想在一头扎进自建研究 loop 之前先拿到地图,就是它了。
https://x.com/HuggingPapers/status/2056783143139725339
第一篇把整个 auto-research 版图画出来的综述:250 多篇论文,覆盖 AI 在完整研究生命周期里的应用,从想法生成到成果传播。它最关键的贡献是在"可靠的辅助"和"不可靠的自主"之间划出一条清晰的界线——尽管现在的系统已经能用大约 15 美元产出一整篇论文。如果你想在一头扎进自建研究 loop 之前先拿到地图,就是它了。
#5
@wildmindai
https://x.com/wildmindai/status/2057416041358032938
综述的配套:一份 Awesome AI Auto-Research 指南,把自动化科研生命周期完整走了一遍,还配了一个收集 agentic AI 研究论文和代码的 GitHub 仓库。它框定的正是所有人都在绕着转的那个转变——把 AI 从一个简单的助手变成一个自主的研究者,并给了你真正去动手搭的参考资料。
https://x.com/wildmindai/status/2057416041358032938
综述的配套:一份 Awesome AI Auto-Research 指南,把自动化科研生命周期完整走了一遍,还配了一个收集 agentic AI 研究论文和代码的 GitHub 仓库。它框定的正是所有人都在绕着转的那个转变——把 AI 从一个简单的助手变成一个自主的研究者,并给了你真正去动手搭的参考资料。
#6
@tom_doerr
https://x.com/tom_doerr/status/2058758398854795494
一个对准安全的具体 researcher-agent loop:它把 LLM 越狱实验自动化了。不再是人去手动探测一个模型的弱点,这个 loop 自己跑实验、自己迭代。这是个小而说明问题的例子——autoresearch 正从机器学习训练那个小圈子里跑出来,进入红队领域,而"实验—迭代—记录"这个循环恰好能干净地映射到对抗性测试上。
https://x.com/tom_doerr/status/2058758398854795494
一个对准安全的具体 researcher-agent loop:它把 LLM 越狱实验自动化了。不再是人去手动探测一个模型的弱点,这个 loop 自己跑实验、自己迭代。这是个小而说明问题的例子——autoresearch 正从机器学习训练那个小圈子里跑出来,进入红队领域,而"实验—迭代—记录"这个循环恰好能干净地映射到对抗性测试上。
#7
@Vizzyy_01
https://x.com/Vizzyy_01/status/2058466337702248852
agentic loop 的非编码切面。他问:当你可以把一个申请链接丢进一个 agentic loop、几分钟内就让整套分发框架上线时,何必再花钱请一家创意公司慢吞吞地规划一套三个月的多渠道策略?这是同一个想法的营销运营版框定——把一份原本要好几周的专业交付物,压缩进一次自主运行里。
https://x.com/Vizzyy_01/status/2058466337702248852
agentic loop 的非编码切面。他问:当你可以把一个申请链接丢进一个 agentic loop、几分钟内就让整套分发框架上线时,何必再花钱请一家创意公司慢吞吞地规划一套三个月的多渠道策略?这是同一个想法的营销运营版框定——把一份原本要好几周的专业交付物,压缩进一次自主运行里。
#8
@michelleefang
https://x.com/michelleefang/status/2059019530467422365
一个信号,说明 autoresearch 正在长成自己的生态:一场 Autoresearch Systems 黑客松,联合了 Modal、OpenAI、Raindrop 和 Antler。当基础设施玩家(Modal 出算力、OpenAI 出模型)开始围着这个品类共同赞助黑客松时,就说明这个 loop 正从个人实验,走向一套大家拿来做生意的共享工具栈。
https://x.com/michelleefang/status/2059019530467422365
一个信号,说明 autoresearch 正在长成自己的生态:一场 Autoresearch Systems 黑客松,联合了 Modal、OpenAI、Raindrop 和 Antler。当基础设施玩家(Modal 出算力、OpenAI 出模型)开始围着这个品类共同赞助黑客松时,就说明这个 loop 正从个人实验,走向一套大家拿来做生意的共享工具栈。
📡 生态产品雷达
生态产品雷达
数据很薄,但指向明确。重心仍然是 Karpathy 的 autoresearch 项目,作为参考设计;Claude Code 和 Codex 是大家真正用来跑 loop 的 agent;Modal 则作为算力层,出现在黑客松场景的底下。
Autoresearch(Karpathy 的项目)— 大家拿来做基准、对照着搭的参考设计
Claude Code — 大家用来跑研究和实验 loop 的两个 agent 之一
Codex — 另一个默认的 loop 运行器,在 NanoGPT-Bench 上被正面对比
Modal — 在 autoresearch 黑客松栈底下浮现的无服务器算力层
数据很薄,但指向明确。重心仍然是 Karpathy 的 autoresearch 项目,作为参考设计;Claude Code 和 Codex 是大家真正用来跑 loop 的 agent;Modal 则作为算力层,出现在黑客松场景的底下。
Autoresearch(Karpathy 的项目)— 大家拿来做基准、对照着搭的参考设计
Claude Code — 大家用来跑研究和实验 loop 的两个 agent 之一
Codex — 另一个默认的 loop 运行器,在 NanoGPT-Bench 上被正面对比
Modal — 在 autoresearch 黑客松栈底下浮现的无服务器算力层
评论