2026年5月29日loop

Loop 日报: 2026年5月29日

今天，这个循环不再是 Karpathy 的一条推，而变成了人们真在跑的东西。OpenAI 在 Karpathy 签约 Anthropic 的同一周办了一场 autoresearch 黑客松，evo 把自己的 autoresearch 平台向所有人开放，而在喧嚣底下，真正的案例开始变重：一个数据库团队过夜跑了近二十个优化实验、醒来拿到可测量的 precision 提升，NVIDIA 研究院讲了一批能写出拿奖 CUDA kernel、能优化物理上还不存在的硬件的 agent loop，人们开始把同一套“迭代-打分-循环”的机器对准自己的每日日志、自己的浏览器 skill，甚至对准寻找灾难性 bug。贯穿其中的，是对“持续学习”的一次安静的重新定义：它不再是更新权重，而是 harness 和上下文变成可训练的状态，在工作还在跑的时候就自我改进。有意思的问题已经从“模型有多聪明”挪到了“你的循环有多紧”。

💡#1

@datadogdevs
https://x.com/datadogdevs/status/2059740228957458924
今天 autoresearch 论调最干净的一个证明。Datadog 的数据库监控团队把 autoresearch 加 LLM 可观测性对准一个 SQL 优化 agent，过夜跑了 23 个实验，把 precision 从 0.54 拉到 0.86。值得照抄的是“怎么做的”：他们持续测试提示词、工具和工作流，跨模型对比 trace 看推理到底在哪一步崩，用 eval 量化每一处改动，最后把 agent 拆成两遍来砍假阳性。这不是关于自我改进 AI 的思想实验，而是一个生产团队睡觉时让一个可测量的优化循环一直跑，醒来时 precision 拿到了接近 60% 的相对提升。

💡#2

@lmsysorg
https://x.com/lmsysorg/status/2059758375257489742
NVIDIA 研究院科学家 Ligeng Zhu 在讲 Humanize——一个让 agent 自主运行、像人一样去啃复杂工程和研究问题的 agentic flow 框架，他带来三个真正重量级的长跑 agent-loop 案例。KDA 写出的快速 CUDA kernel 在 MLSys FlashInfer Kernel 竞赛上排进前三；一个虚拟硬件项目在物理上还不存在的硬件上优化计算；JetAutoResearch 用提前编译把 AutoResearch 工作流的成本砍掉了 50% 以上。这场分享的主题——把 agent loop 当成“把 token 变成生产力”的那个东西——正是整个领域在绕的核心问题。这些循环是以小时计的，不是秒。

💡#3

@alokbishoyi97
https://x.com/alokbishoyi97/status/2059612002595840190
Alok Bishoyi 开放了 evo 的 autoresearch 平台 beta，而且不像大多数发布帖，他附上了一个带全部 trace 和日志的真实例子，展示怎么用 autoresearch 让你的 agent 的 skill 随时间变强。evo 是它背后的开源引擎，基于 Karpathy 的 autoresearch 思路，用并行 agent、树搜索和仪表盘来自动化、分析、改进代码库，已经在数千个项目里被采用。这件事重要，是因为 autoresearch 一直主要是 Karpathy 的一条推和一个模糊的愿景，而 evo 是最早一批把它做成普通人真能跑起来的东西的尝试，能跑在 AWS、Azure、Modal 或 e2b 上。

💡#4

@alokbishoyi97
https://x.com/alokbishoyi97/status/2059643660581621831
Alok 见过的 evo 最迷人的用法：有人把一个 autoresearch 循环当成 cron 跑在自己每天的 agent 日志上——不是跑在代码上，而是跑在他的私人工作流、Notion 和 Obsidian 的习惯记录、邮件模式、个人基准任务上。这个循环进化出高度个性化的 Skill，越来越懂这个人自己那套任务管理、研究和写作的风格。你走开，回来时发现自己的 agent 明显变锋利了。这正是 autoresearch 跳出编码盒子的那一面：实验室用在模型上的同一个进化循环，被对准了你自己的日常生活，在你没看的时候不断复利。

💡#5

@kylejeong
https://x.com/kylejeong/status/2059753008297394245
一个直白的提醒：迭代式 autoresearch 循环不只是用来训模型的，你可以把它对准你自己的 skill。他的团队对自家的浏览器 skill 跑了迭代 AutoResearch，做出了 /autobrowse，让这些 skill 的运行速度和成本最多优化了 90%。整个卖点一句话说完：拿一个能用的 skill，让一个自动循环拿你自己的指标往死里捶，最后走出来时它便宜了一个数量级、却干同样的活。90% 这个数字，正是让 autoresearch 的热度显得是挣来的而不是画饼的那种结果。

💡#6

@beuchelt
https://x.com/beuchelt/status/2059455802939736189
微软一篇叫 SkillOpt 的论文，把 SKILL.md 文档当成可训练的外部状态，用深度学习优化器那套纪律去优化它——但完全在文本空间里，不微调模型。一个独立的优化器模型分析冻结目标 agent 打分后的 rollout，只对一份 skill 文档提出有界的增、删、替换编辑，只有打败留出验证分时才接受，配上文本化的学习率和一个被拒编辑缓冲来保稳定。横跨六个基准、七个模型、三个 harness（含 Codex 和 Claude Code），它在全部 52 种组合里拿到最优或并列，在 Codex 循环里把 GPT-5.5 拉高了 24.8 分。关键是优化出来的 skill 能跨模型、跨环境迁移——这才是真正的奖品：优化一次，这个产物持续回本。

💡#7

@daniel_mac8
https://x.com/daniel_mac8/status/2059466060697354599
今天对“持续学习到底要往哪走”最清晰的一次表述，而且答案不是更新权重。这幅图景是：把超大、长寿命的上下文窗口当成可学习的“快权重”，再加上 harness 优化——skill、提示词、工具、eval、工作流全都变成可训练的状态。想象一个企业 agent，底座模型扛着慢权重，上下文扛着快权重：组织知识、项目历史、日志、eval 结果、工具 trace、学到的 skill。然后 agent loop 在干活的当下就改进这些状态——不是任务之后，是任务之中。一个跑好几天的 run 边跑边改进自己的上下文和工作流，而因为改进这一步本身就是循环的一部分，你最终会得到一个真正自主的 agent，它通过优化模型周围的世界来学习。他押注 2026 年底前就能看到。

💡#8

@SHL0MS
https://x.com/SHL0MS/status/2059749890620620851
autoresearch 思路一个妙到有点诡异的应用：他开发了一个方法，像是“功能增益研究”杂交 Karpathy 的 autoresearch，但瞄准的是寻找并变异灾难性的 Unicode bug。他不是在优化模型或 skill，而是把“迭代-变异-评估”这个循环当成对抗式 fuzzer，进化出那些以有趣方式搞崩东西的输入。这提醒我们：autoresearch 循环是一个通用原语，任何“有可编辑产物 + 可测量信号”的问题都能变成一场进化搜索，包括安全和找 bug，而不只是调模型和调提示词。

💡#9

@AradhyeAgarwal
https://x.com/AradhyeAgarwal/status/2059643175946576140
一个诚实的小实验，但它的发现比大多数成功故事都值钱。为了做一个视频质量过滤器，他写了一个 agent loop，通过顺序工具调用懒加载、逐帧读视频，给 agent 20 次调用的预算。在一段近 900 帧的 30 秒片段上，agent 没有聪明地采样，而是机械地每隔一百帧走一帧、走到 800 就停了，哪怕明确告诉它要用满 20 轮——而且连 GPT-5.4 这种前沿模型也这样。他的判断是：塞满图像的上下文太大了，把指令遵循和推理能力压垮了。结论是：我们需要把 agentic 训练循环和视觉输入狠狠地整合起来，因为一旦上下文被像素塞满、模型还能不能推理，决定了这个循环到底成不成立。

💡#10

@wesbos
https://x.com/wesbos/status/2059625611623043435
在和 Pierre Computer 的 Alex、Amadeus 录的播客里，最亮的一点是他们怎么用 pi autoresearch 做性能优化，Wes 直接说是天才之举。更大的框架是：快速、做得好的原语——具体说就是树和 diff——现在已经是 Claude、Codex、OpenCode 底下共享的底座，而 pi 是大家想在这些原语上跑自己的优化循环时反复去够的那个 harness。这是个有用的信号：autoresearch 正在悄悄变成一个性能工程工具，而不只是研究上的好奇心，被那些真在乎从 agent 系统里抠出延迟和成本的团队用着。

💡#11

@MattWil12
https://x.com/MattWil12/status/2059555417953370605
Prudentia，一个只为欧洲金融业打造的确定性 AI 副驾驶，靠一个两层 agentic loop 做合规缺口分析：初级 agent 扫页面，高级 agent 交叉核对来砍掉假阳性，几分钟内把一份 120 页的文档对照欧盟法律法规审一遍。它那套法律层级意识——把“一级法规压过三级软法”直接映射进向量空间——加上一键核验、把每条主张硬链接到确切段落，正是一个概率性的词预测器在碰合规之前需要的护栏。这是 agentic loop 干高风险非编码工作的一个干净例子：在这种场景里“自信地错”是责任事故，不是小毛病。

💡#12

@DivyanshGandhi
https://x.com/DivyanshGandhi/status/2059701390138843136
他一直在跑一个自己版本的 autoresearch，叫 GSL：Graph、Score、Loop（建图、打分、循环）。每一场会议、每一个决策、每一份产物都被翻译进一张上下文图，然后打分，然后被循环迭代。这是把 autoresearch 用在不是代码、也不是模型，而是一个组织“如何思考和决策”的原材料上，把杂乱的工作流变成一张结构化、被持续重新评估的图。这个范式今天反复出现：人们各自独立地重新发明同一个循环——拿你自己的“尾气”，打分，喂回去，让结构随时间变锋利，而不需要人卡在每一遍的中间。

💡#13

@Rohit_Writes
https://x.com/Rohit_Writes/status/2059456302410355043
对“autoresearch 要好用还差什么”最好的一次表述，写成了一份愿望清单，因为目前还没有开源的一体化平台，而 Codex 的 /goal 不够用。他想要一个 reward-hacking 监控器，因为他最大的痛点就是让一个循环跑 12 小时、回来发现拿到一个退化的解；想要人工升级通知，agent 需要更多算力或数据时直接 ping 他手机；想要多目标设置，挂到一个带里程碑的 Linear 项目上；想要自适应的遥测；还想要“研究品味”——一个会提出未来方向、并从他的点赞点踩里学习的平台。这才是所有人一直在指的那个 autoresearch 工具的真实产品规格，由一个真的被无人值守循环坑过的人写出来。

💡#14

@TeksCreate
https://x.com/TeksCreate/status/2059568807190892690
字节跳动放出了 deer-flow，他认为这不只是又一个 agent 框架，而是一个 SuperAgent Harness，能在以小时计的任务上自主做研究、写代码、做创作，三周拿了 6.97 万星。架构才是有意思的地方：它不是单一 agent loop，而是每个子任务一个沙箱执行环境、跨会话的持久记忆、一个用于 agent 间通信的消息网关、以及能自己再派生子 agent 的子 agent。他一直在拿 ArXiv 论文喂它、要可执行的实现来测试，报告说多小时长跑的结果连贯得出人意料。MIT 协议，基于 LangGraph。这正是长跑 autoresearch 循环真正需要的那层基础设施。

💡#15

@Ventali
https://x.com/Ventali/status/2059748779365187671
他们想要一个跑在浏览器里的 agent loop，于是做了 edgent 并开源——一个无头浏览器 agent SDK，原生支持 CodeMirror、自带模型、MIT 协议。这是今天这个范式里一个小而有说服力的条目：agent loop 正在逃离终端和 IDE，作为一个别人能在上面搭东西的可复用原语搬进浏览器。浏览器才是大多数知识工作真正发生的地方，所以一个干净的、模型无关的循环跑在那里，恰恰是让非编码 autoresearch 和自动化变得实用的那种底座。

📡 生态产品雷达

生态产品雷达

evo（@EVO__HQ，Alok Bishoyi 出品）：当天被提到最多的 autoresearch 项目，一个基于 Karpathy 思路的开源引擎，用并行 agent、树搜索和仪表盘来优化代码库和 skill。现在开放 beta，已在数千个项目里被采用。

pi / pi autoresearch（Pierre Computer）：大家想在“树和 diff”这些撑起 Claude、Codex、OpenCode 的原语上跑优化循环时去够的那个 harness。在性能工程上被反复引用，其中 pi-mono/agent 被赞为极简到可当教学样本的 agent loop。

新兴的长跑 harness：deer-flow（字节跳动，MIT，三周 6.97 万星）是一个 SuperAgent harness，每个子任务一个沙箱、子 agent 还能再派生子 agent；Humanize（NVIDIA，Ligeng Zhu）面向以小时计的工程与研究循环；再加上 SkillOpt（微软）和 MUSE-Autoskill 作为“把 skill 当可训练状态”的研究骨架。autoresearch 的框架层正在迅速补齐。

← 上一篇

超级用户日报: 2026年5月29日

灵感雷达: 2026年5月29日

← 返回所有文章

加载中...

Loop 日报: 2026年5月29日

相关文章

评论