2026年5月28日loop

Loop 日报: 2026年5月29日

今天,这个循环不再是 Karpathy 的一条推,而变成了人们真在跑的东西。OpenAI 在 Karpathy 签约 Anthropic 的同一周办了一场 autoresearch 黑客松,evo 把自己的 autoresearch 平台向所有人开放,而在喧嚣底下,真正的案例开始变重:一个数据库团队过夜跑了近二十个优化实验、醒来拿到可测量的 precision 提升,NVIDIA 研究院讲了一批能写出拿奖 CUDA kernel、能优化物理上还不存在的硬件的 agent loop,人们开始把同一套“迭代-打分-循环”的机器对准自己的每日日志、自己的浏览器 skill,甚至对准寻找灾难性 bug。贯穿其中的,是对“持续学习”的一次安静的重新定义:它不再是更新权重,而是 harness 和上下文变成可训练的状态,在工作还在跑的时候就自我改进。有意思的问题已经从“模型有多聪明”挪到了“你的循环有多紧”。
💡#1
@datadogdevs
https://x.com/datadogdevs/status/2059740228957458924
今天 autoresearch 论调最干净的一个证明。Datadog 的数据库监控团队把 autoresearch 加 LLM 可观测性对准一个 SQL 优化 agent,过夜跑了 23 个实验,把 precision 从 0.54 拉到 0.86。值得照抄的是“怎么做的”:他们持续测试提示词、工具和工作流,跨模型对比 trace 看推理到底在哪一步崩,用 eval 量化每一处改动,最后把 agent 拆成两遍来砍假阳性。这不是关于自我改进 AI 的思想实验,而是一个生产团队睡觉时让一个可测量的优化循环一直跑,醒来时 precision 拿到了接近 60% 的相对提升。
💡#2
@lmsysorg
https://x.com/lmsysorg/status/2059758375257489742
NVIDIA 研究院科学家 Ligeng Zhu 在讲 Humanize——一个让 agent 自主运行、像人一样去啃复杂工程和研究问题的 agentic flow 框架,他带来三个真正重量级的长跑 agent-loop 案例。KDA 写出的快速 CUDA kernel 在 MLSys FlashInfer Kernel 竞赛上排进前三;一个虚拟硬件项目在物理上还不存在的硬件上优化计算;JetAutoResearch 用提前编译把 AutoResearch 工作流的成本砍掉了 50% 以上。这场分享的主题——把 agent loop 当成“把 token 变成生产力”的那个东西——正是整个领域在绕的核心问题。这些循环是以小时计的,不是秒。
💡#3
@alokbishoyi97
https://x.com/alokbishoyi97/status/2059612002595840190
Alok Bishoyi 开放了 evo 的 autoresearch 平台 beta,而且不像大多数发布帖,他附上了一个带全部 trace 和日志的真实例子,展示怎么用 autoresearch 让你的 agent 的 skill 随时间变强。evo 是它背后的开源引擎,基于 Karpathy 的 autoresearch 思路,用并行 agent、树搜索和仪表盘来自动化、分析、改进代码库,已经在数千个项目里被采用。这件事重要,是因为 autoresearch 一直主要是 Karpathy 的一条推和一个模糊的愿景,而 evo 是最早一批把它做成普通人真能跑起来的东西的尝试,能跑在 AWS、Azure、Modal 或 e2b 上。
💡#4
@alokbishoyi97
https://x.com/alokbishoyi97/status/2059643660581621831
Alok 见过的 evo 最迷人的用法:有人把一个 autoresearch 循环当成 cron 跑在自己每天的 agent 日志上——不是跑在代码上,而是跑在他的私人工作流、Notion 和 Obsidian 的习惯记录、邮件模式、个人基准任务上。这个循环进化出高度个性化的 Skill,越来越懂这个人自己那套任务管理、研究和写作的风格。你走开,回来时发现自己的 agent 明显变锋利了。这正是 autoresearch 跳出编码盒子的那一面:实验室用在模型上的同一个进化循环,被对准了你自己的日常生活,在你没看的时候不断复利。
💡#5
@kylejeong
https://x.com/kylejeong/status/2059753008297394245
一个直白的提醒:迭代式 autoresearch 循环不只是用来训模型的,你可以把它对准你自己的 skill。他的团队对自家的浏览器 skill 跑了迭代 AutoResearch,做出了 /autobrowse,让这些 skill 的运行速度和成本最多优化了 90%。整个卖点一句话说完:拿一个能用的 skill,让一个自动循环拿你自己的指标往死里捶,最后走出来时它便宜了一个数量级、却干同样的活。90% 这个数字,正是让 autoresearch 的热度显得是挣来的而不是画饼的那种结果。
💡#6
@beuchelt
https://x.com/beuchelt/status/2059455802939736189
微软一篇叫 SkillOpt 的论文,把 SKILL.md 文档当成可训练的外部状态,用深度学习优化器那套纪律去优化它——但完全在文本空间里,不微调模型。一个独立的优化器模型分析冻结目标 agent 打分后的 rollout,只对一份 skill 文档提出有界的增、删、替换编辑,只有打败留出验证分时才接受,配上文本化的学习率和一个被拒编辑缓冲来保稳定。横跨六个基准、七个模型、三个 harness(含 Codex 和 Claude Code),它在全部 52 种组合里拿到最优或并列,在 Codex 循环里把 GPT-5.5 拉高了 24.8 分。关键是优化出来的 skill 能跨模型、跨环境迁移——这才是真正的奖品:优化一次,这个产物持续回本。
💡#7
@daniel_mac8
https://x.com/daniel_mac8/status/2059466060697354599
今天对“持续学习到底要往哪走”最清晰的一次表述,而且答案不是更新权重。这幅图景是:把超大、长寿命的上下文窗口当成可学习的“快权重”,再加上 harness 优化——skill、提示词、工具、eval、工作流全都变成可训练的状态。想象一个企业 agent,底座模型扛着慢权重,上下文扛着快权重:组织知识、项目历史、日志、eval 结果、工具 trace、学到的 skill。然后 agent loop 在干活的当下就改进这些状态——不是任务之后,是任务之中。一个跑好几天的 run 边跑边改进自己的上下文和工作流,而因为改进这一步本身就是循环的一部分,你最终会得到一个真正自主的 agent,它通过优化模型周围的世界来学习。他押注 2026 年底前就能看到。
💡#8
@SHL0MS
https://x.com/SHL0MS/status/2059749890620620851
autoresearch 思路一个妙到有点诡异的应用:他开发了一个方法,像是“功能增益研究”杂交 Karpathy 的 autoresearch,但瞄准的是寻找并变异灾难性的 Unicode bug。他不是在优化模型或 skill,而是把“迭代-变异-评估”这个循环当成对抗式 fuzzer,进化出那些以有趣方式搞崩东西的输入。这提醒我们:autoresearch 循环是一个通用原语,任何“有可编辑产物 + 可测量信号”的问题都能变成一场进化搜索,包括安全和找 bug,而不只是调模型和调提示词。
💡#9
@AradhyeAgarwal
https://x.com/AradhyeAgarwal/status/2059643175946576140
一个诚实的小实验,但它的发现比大多数成功故事都值钱。为了做一个视频质量过滤器,他写了一个 agent loop,通过顺序工具调用懒加载、逐帧读视频,给 agent 20 次调用的预算。在一段近 900 帧的 30 秒片段上,agent 没有聪明地采样,而是机械地每隔一百帧走一帧、走到 800 就停了,哪怕明确告诉它要用满 20 轮——而且连 GPT-5.4 这种前沿模型也这样。他的判断是:塞满图像的上下文太大了,把指令遵循和推理能力压垮了。结论是:我们需要把 agentic 训练循环和视觉输入狠狠地整合起来,因为一旦上下文被像素塞满、模型还能不能推理,决定了这个循环到底成不成立。
💡#10
@wesbos
https://x.com/wesbos/status/2059625611623043435
在和 Pierre Computer 的 Alex、Amadeus 录的播客里,最亮的一点是他们怎么用 pi autoresearch 做性能优化,Wes 直接说是天才之举。更大的框架是:快速、做得好的原语——具体说就是树和 diff——现在已经是 Claude、Codex、OpenCode 底下共享的底座,而 pi 是大家想在这些原语上跑自己的优化循环时反复去够的那个 harness。这是个有用的信号:autoresearch 正在悄悄变成一个性能工程工具,而不只是研究上的好奇心,被那些真在乎从 agent 系统里抠出延迟和成本的团队用着。
💡#11
@MattWil12
https://x.com/MattWil12/status/2059555417953370605
Prudentia,一个只为欧洲金融业打造的确定性 AI 副驾驶,靠一个两层 agentic loop 做合规缺口分析:初级 agent 扫页面,高级 agent 交叉核对来砍掉假阳性,几分钟内把一份 120 页的文档对照欧盟法律法规审一遍。它那套法律层级意识——把“一级法规压过三级软法”直接映射进向量空间——加上一键核验、把每条主张硬链接到确切段落,正是一个概率性的词预测器在碰合规之前需要的护栏。这是 agentic loop 干高风险非编码工作的一个干净例子:在这种场景里“自信地错”是责任事故,不是小毛病。
💡#12
@DivyanshGandhi
https://x.com/DivyanshGandhi/status/2059701390138843136
他一直在跑一个自己版本的 autoresearch,叫 GSL:Graph、Score、Loop(建图、打分、循环)。每一场会议、每一个决策、每一份产物都被翻译进一张上下文图,然后打分,然后被循环迭代。这是把 autoresearch 用在不是代码、也不是模型,而是一个组织“如何思考和决策”的原材料上,把杂乱的工作流变成一张结构化、被持续重新评估的图。这个范式今天反复出现:人们各自独立地重新发明同一个循环——拿你自己的“尾气”,打分,喂回去,让结构随时间变锋利,而不需要人卡在每一遍的中间。
💡#13
@Rohit_Writes
https://x.com/Rohit_Writes/status/2059456302410355043
对“autoresearch 要好用还差什么”最好的一次表述,写成了一份愿望清单,因为目前还没有开源的一体化平台,而 Codex 的 /goal 不够用。他想要一个 reward-hacking 监控器,因为他最大的痛点就是让一个循环跑 12 小时、回来发现拿到一个退化的解;想要人工升级通知,agent 需要更多算力或数据时直接 ping 他手机;想要多目标设置,挂到一个带里程碑的 Linear 项目上;想要自适应的遥测;还想要“研究品味”——一个会提出未来方向、并从他的点赞点踩里学习的平台。这才是所有人一直在指的那个 autoresearch 工具的真实产品规格,由一个真的被无人值守循环坑过的人写出来。
💡#14
@TeksCreate
https://x.com/TeksCreate/status/2059568807190892690
字节跳动放出了 deer-flow,他认为这不只是又一个 agent 框架,而是一个 SuperAgent Harness,能在以小时计的任务上自主做研究、写代码、做创作,三周拿了 6.97 万星。架构才是有意思的地方:它不是单一 agent loop,而是每个子任务一个沙箱执行环境、跨会话的持久记忆、一个用于 agent 间通信的消息网关、以及能自己再派生子 agent 的子 agent。他一直在拿 ArXiv 论文喂它、要可执行的实现来测试,报告说多小时长跑的结果连贯得出人意料。MIT 协议,基于 LangGraph。这正是长跑 autoresearch 循环真正需要的那层基础设施。
💡#15
@Ventali
https://x.com/Ventali/status/2059748779365187671
他们想要一个跑在浏览器里的 agent loop,于是做了 edgent 并开源——一个无头浏览器 agent SDK,原生支持 CodeMirror、自带模型、MIT 协议。这是今天这个范式里一个小而有说服力的条目:agent loop 正在逃离终端和 IDE,作为一个别人能在上面搭东西的可复用原语搬进浏览器。浏览器才是大多数知识工作真正发生的地方,所以一个干净的、模型无关的循环跑在那里,恰恰是让非编码 autoresearch 和自动化变得实用的那种底座。
📡 生态产品雷达
生态产品雷达

evo(@EVO__HQ,Alok Bishoyi 出品):当天被提到最多的 autoresearch 项目,一个基于 Karpathy 思路的开源引擎,用并行 agent、树搜索和仪表盘来优化代码库和 skill。现在开放 beta,已在数千个项目里被采用。

pi / pi autoresearch(Pierre Computer):大家想在“树和 diff”这些撑起 Claude、Codex、OpenCode 的原语上跑优化循环时去够的那个 harness。在性能工程上被反复引用,其中 pi-mono/agent 被赞为极简到可当教学样本的 agent loop。

新兴的长跑 harness:deer-flow(字节跳动,MIT,三周 6.97 万星)是一个 SuperAgent harness,每个子任务一个沙箱、子 agent 还能再派生子 agent;Humanize(NVIDIA,Ligeng Zhu)面向以小时计的工程与研究循环;再加上 SkillOpt(微软)和 MUSE-Autoskill 作为“把 skill 当可训练状态”的研究骨架。autoresearch 的框架层正在迅速补齐。
← 上一篇
超级用户日报: 2026年5月29日
下一篇 →
灵感雷达: 2026年5月29日
← 返回所有文章

评论

加载中...
>_