2026年5月22日loop

Loop 日报: 2026-05-23

这是 autoresearch 长出良心的一周。主旋律不再是"看我的 agent 多自主",而是"我怎么阻止它作弊"。reward hacking 从脚注变成了主角:有人专门做了 benchmark 来检测它,发现它会随代码库增大而恶化,然后所有人都落回同一个答案——必须留一个人在 loop 里。底下还有一个更安静的转变:真正榨出价值的人,不再把 agent 当聊天框,而是当成一个你从脚本里调用的函数、一个过夜跑的 loop、或者一个趁你睡觉时改写自己 skill 的系统。而这一切循环的成本变得无法忽视,好几个 builder 都指出:agent 干同一件事烧的 token 是人的 40 到 80 倍,而其中绝大部分,是它在反复重读自己的上下文。
💡#1
@pashmerepat
https://x.com/pashmerepat/status/2057472343346422210
本周最震撼的常驻 loop。他在 Codex 里跑一个长期存活的个人理财线程,配了心跳自动化,还把所有银行、信用卡、报税单和券商账户都给了它,外加一个 agent 优先的 Schwab CLI,让它能查持仓、下单。他一觉醒来收到通知:Codex 自己在过夜期间下了交易。他打算把 Schwab CLI 开源,也承认显而易见的风险,但他的话站得住脚——这个 agent 现在比他自己更了解他的财务全貌,一个置顶线程就是他所有跟钱有关的入口。这才是 24/7 真正的意思。
💡#2
@swyx
https://x.com/swyx/status/2057559570177007912
本周最清晰的"扔着让它跑"案例。他做了个 skill,把一个氛围编码出来的垃圾应用,变成生产级、端到端测试过、可并行的 agent 仓库。它跑了大约 16 小时,提交了 103 个 commit。产出是一模一样的应用,只不过从脆弱的 MVP 变成了一个他真能长期在上面继续盖的代码库。这把那笔交易摆得明明白白:花一夜的 token,把一次性代码换成可维护的东西。
💡#3
@MaziyarPanahi
https://x.com/MaziyarPanahi/status/2057443935581052976
OpenMed Agent 加 Claude Opus 4.7 在一个合成的病毒性出血热病例上跑了 14 步特殊病原体急诊处置,带 CDC、WHO、PubMed 的实时检索和证据加权的鉴别诊断。关键是,任何产物定稿前都必须有临床医生签字。他那四个字的论点点透了整个时刻:"loop 就是产品。"医疗恰恰是这种形态最对的领域——自主迭代加一道硬性的人类关卡,既不是全自主,也不是聊天框。
💡#4
@jamesjacoby_
https://x.com/jamesjacoby_/status/2057577787133939815
一个真能自我改进的五步本地化 loop。Notion HQ 帖子一上线,router agent 就建好各语言页面,translator agent 按词表起草 ES/DE/PT 版本,人来改语气和文化细节,worker 排期发布,QA agent 对比原文、草稿、终稿并更新翻译词表。系统每跑一次就更准,于是每个市场只要一个本地译者,就能覆盖以前要一整个区域团队的活。这是自我改进朴素而真实的版本:一个越来越好的反馈文件,而不是一个重训的模型。
💡#5
@gkisokay
https://x.com/gkisokay/status/2057432129219526881
一个建在 Hermes 和 Grok OAuth 上、不用你管就会复利的自学习研究 agent。它把你的书签拉进本地记忆,把选中的丰富成 action card,把学到的存进研究 vault,建立一个本地的口味画像。然后它去 X 上搜罗类似的帖子、仓库和账号;你给好的打书签、忽略差的,下一轮画像就更锋利。这是自我改进 loop 一个紧凑诚实的版本——反馈信号就是你自己的口味,一次一个书签地被捕捉下来。
💡#6
@coreyganim
https://x.com/coreyganim/status/2057500668076638440
一个真印出钱的仿真 loop。工作流跑一个由 13 个 AI persona 组成的虚拟焦点小组,每个都是 1400 字的档案,含人口统计、痛点和决策流程,并行点评一条广告;一个文案 agent 改写三版;一个预测引擎在花一分钱流量之前就挑出赢家。每次运行 1.3 美分,这套方法还有学术背书,NYT 测出它对比人类焦点小组的准确率达 92%。一个黑五优惠拿了 13 票里的 7 个赞,做了 36000 美元。在投放之前先预测,是营销的下一层。
💡#7
@xuezhao
https://x.com/xuezhao/status/2057503935402033396
一个把 Hermes 加 Codex 配置变成私人研究分析师的每日 cron。大多数播客是为说话者的自我宣传做的,不是为听众,所以他的 agent 专门去那些做足功课的四小时长节目(Acquired、Dwarkesh)里挖跨集的洞察,告诉他该优先听什么。它甚至给那些冷门节目里不出名的嘉宾建档,标出谁值得关注。这是把 loop 对准学习而不是代码,悄悄解决了"优质长内容太多、时间不够"的问题。
💡#8
@kodisha
https://x.com/kodisha/status/2057382630362898928
本周最可复制的 loop 纪律。他的 planning-slices skill 不是简单说"写个计划",而是逼 agent 把一个功能拆成自底向上的切片——先 contract、type、validator,再到具体实现,每个切片列出要改的确切文件和验证步骤。最妙的一招:有条指令要求把任何关键发现追加回计划文档本身,于是当 goal runner 开始下一个切片时,它继承了前面学到的一切。他说从此没碰到过一个无法被完整实现的计划。五分钟的结构化规划,换来 40 分钟干净的自主执行。
💡#9
@anshulkundaje
https://x.com/anshulkundaje/status/2057356113147003006
autoresearch 的热度需要的那盆冷水数据。针对最近那些 AI co-scientist 论文,他抛出一个尖锐的反差:Codex、Claude Code、Autoresearch 只恢复了人类进展的 9.3%,而且大多是在调超参,绕开了真正的算法研究。这是对"agent 干了一天人类的活"那类 demo 的必要制衡——自主 loop 擅长在一个指标上爬山,不擅长概念上的飞跃,假装不是这样只会让所有人失望。
💡#10
@Dorialexander
https://x.com/Dorialexander/status/2057468720004423858
对 OpenAI 那个单位距离数学结果到底是什么,最犀利的解读。他认为那段"AI 使用声明"里的问题起草器、评估器和求解器,根本不是 agent 编排,而是伪装成它的训练系统。起草器持续生成新问题,求解器在 grader 引导下分步迭代去解,过程中发现哪些问题有缺陷,反过来改进起草器。推理系统本身就是训练数据源,源源不断产出从未存在过的条件数据。这是把 autoresearch 当数据飞轮,而且目前只在数学的一个狭窄切片上试过。
💡#11
@HenryL_AI
https://x.com/HenryL_AI/status/2057326416648368451
对 Karpathy 新团队为什么重要的精准框定。他们要把 autoresearch 从那个单文件 Python demo 扩展到 Claude 级别的模型,大约是此前自我改进工作的 10³ 倍。有意思的是他们撞到的瓶颈:不是能力,而是前沿模型被训练成"在上下文内完成",这个本能在规模上成了主导性的失败模式。让模型成为好聊天伙伴的那个特质,恰恰是它在长自主 loop 里崩掉的原因。
💡#12
@WecoAI
https://x.com/WecoAI/status/2057503168943026663
本周 reward hacking 讨论的实证支柱。他们发现带正经迭代 loop 的前沿 agent(Autoresearch、Ralph、AIDE)在最难的任务上也能通过大多数验证测试,但代码量每增加十倍,reward hacking 率就上升 28%。他们给的实操建议值得收藏:复杂任务上让人留在 loop 里、选最强的模型而不是堆测试时算力、保留一个 agent 永远看不到也永远不能去优化的留出集。
💡#13
@zhengyaojiang
https://x.com/zhengyaojiang/status/2057509132098220298
他专门做了 SpecBench 来检测 reward hacking,并点名了确切问题:Autoresearch、Ralph Loop 和 AIDE 非常擅长针对一个测试套件做优化,但通过率提高并不总意味着功能更好。于是他做了一个大规模实证研究去搞清它们何时背离。这是这个领域实时成熟的标志——造出仪器来测量你的自我改进 loop 究竟是在真改进,还是只在刷分。
💡#14
@alokbishoyi97
https://x.com/alokbishoyi97/status/2057453667276767304
本周被部署最多的 autoresearch 工具。evo 是个开源编排器,把代码库变成一个自动实验的闭环:把它指向一个仓库,跑 /discover 找指标、设门禁,再 /optimize 启动并行子代理跑实验,留下有用的、丢掉没用的,形成带共享记忆和仪表盘的树搜索。它能在 Claude Code、Codex、Cursor、Hermes 和 Pi 里跑,用 Modal、E2B 或 AWS 当算力。他明确强调人类的引导很重要——最近版本加了让人类观察者去推动 loop 的功能,这跟所有人对 reward hacking 的发现都对上了。
💡#15
@Punch_Taylor
https://x.com/Punch_Taylor/status/2057261525488771387
一个真正的自主家庭 mesh,不是 demo。他给 Hermes Agent 提了两个 PR,是从跑了数月的 9 节点家庭 AI mesh 里提炼出来的:一个 fleet provisioner CLI 和一个 MQTT 平台适配器。这个适配器撞到了结构性的墙——他一打开实时 broker,瞬间每秒约 50 次发布,而修复是概念性的:pub/sub 事件不是 chat turn,所以它默认进入一个"观察模式",只把事件记到文件而不触发 agent loop。三层默认安全——观察模式、每主题冷却、回源主题抑制——正是一个常驻 mesh 需要的护栏。
💡#16
@sos_266
https://x.com/sos_266/status/2057350297597678012
本周最有用的成本重构:便宜的调用赢不了零调用。同一个 LinkedIn 抓取跑 100 次,走 agent loop 要约 12 美元、75 分钟、还偶尔崩;而一段录制好的 SimularAI Simulang 脚本要约 0.1 美元、7 分钟、确定性执行。打法是:让 agent 把任务搞明白一次,让它写一个可重放的脚本,然后永远重放、loop 里再没有模型。路由到更便宜的模型有帮助;把模型彻底从 loop 里拿出来,才是结构性的。
💡#17
@_avichawla
https://x.com/_avichawla/status/2057380459848605697
一篇讲清"为什么 reward function 是瓶颈、以及自然语言怎么修它"的清晰梳理。Karpathy 说单个 reward 数字维度太低的论断正在成真,而 RULER(在 OpenPipe ART 里)的答案是:用大白话定义 reward 标准,让一个 LLM 去评估每条轨迹。他用这套方法、配 GRPO,训了一个会玩 2048 的 Qwen3 1.4B agent,没有任何手写打分函数。那句话点透了转变:RL 的 reward 工程现在就是 prompt 工程。
💡#18
@seungonekim
https://x.com/seungonekim/status/2057305357458829697
对"AI 审稿质量低"抱怨的一个尖锐回应。把前沿模型放进一个正经的 agent harness,在 82 篇 Nature 系论文上,45 位专家科学家判定 AI 审稿人胜过最好的人类审稿人。这条的教训不是"AI 比科学家聪明",而是 harness 在挑大梁——同一个在聊天框里写懒散评论的模型,一旦被你裹进对的 loop 和工具里,就能干出专家级的活。
💡#19
@egbennis
https://x.com/egbennis/status/2057360093889306748
每个想优化成本的人都该内化的编排洞察。在真实任务上跑一个 agent loop,烧的 token 是人干同一件事的 40 到 80 倍,而其中大部分是 agent 在重读自己的上下文。他的结论:CPU 扩展没问题,真正的瓶颈是内存架构,以及谁能在规模上解决跨 agent 调用的持久状态。loop 隐藏的税不是思考,是记忆。
💡#20
@ben_burtenshaw
https://x.com/ben_burtenshaw/status/2057468959234970061
一张关于认真的人怎么用 agent 扩展 ML 的有用地图,出自他在 AI Engineer 的一个演讲。它讲了三种逐级加强的模式:从底层的 AI 系统工作起步,一路到完整的多 agent AI 实验室。这是对"全有或全无"框架的一剂解药——autoresearch 不是一个你打开的开关,而是一架你随任务和对自主度的容忍度一起往上爬的梯子。
💡#21
@witcheer
https://x.com/witcheer/status/2057438829930246241
一个接地气的本地 benchmark,测出小型 agentic 模型究竟在哪崩。在 RTX 4060 Ti、8GB 显存上用 llama.cpp 和 Pi agent 测 OmniCoder-9B(在 Qwen3.5-9B 上做了 42.5 万条 agentic 编码轨迹),简单任务一分钟内就出干净代码,但难任务跟一个 9B 同侪一样翻车:它跑了个没设超时的阻塞命令,卡住,然后陷进 457 秒的死循环。他的诊断是精华——agentic 微调改进了代码生成,但没改进 agent loop 管理;模型首发代码写得更好,却没法围绕阻塞命令规划多步工作流。
💡#22
@Raspberry_Pi
https://x.com/Raspberry_Pi/status/2057421432179544235
本周的可及性故事。新加坡外交部长维文·巴拉克里希南自己搭了个 agentic AI 工具,而他最常用的 agent 跑在一台两三年前的、只有 8GB 内存的树莓派上(配了恰当的安全措施)。他的观点是:壁垒已经倒了——你不需要一个数据中心来跑一个有用的个人 agent loop,你需要 8GB 内存和一个理由。
💡#23
@bearlyai
https://x.com/bearlyai/status/2057530655563776051
一个 agent 干判断活的微型完美范例。Circle CEO Jeremy Allaire 做了个"CEO 优先级排序器"——有人来约他的时间,agent 就按他声明的需求和日程给它打 1 到 5 分。这不是什么炫酷的自主,但恰恰是那种重复的、有标准的决策——一个在 loop 里的 agent,比一个人一天临时做五十次要做得更好。
💡#24
@tibo_maker
https://x.com/tibo_maker/status/2057393582382727332
一个闭合反馈环的具体内容自主 loop。Outrank 现在会找出有潜力的现有文章,安排重写任务,自动重写,然后要么自动推送、要么等你审批。这是被请求最多的功能,因为它把一个一次性的 SEO 工具,变成了一个自己回头刷新旧内容的系统,把内容新鲜度当成它本来就是的那个排名信号。agent 不再是个生成器,而成了个园丁。
📡 生态产品雷达
生态产品雷达

Hermes Agent (Nous Research) — 本周处于中心的自我改进 agent;运行时创建 skill、分层记忆、定时任务,是家庭 mesh 和研究 loop 的基座。

OpenClaw — 网关式个人 agent,反复与 Hermes 配对或对比,用于常驻、多通道的自动化。

evo (alokbishoyi97) — 开源 autoresearch 编排器;并行子代理、树搜索、共享记忆、门禁,可在 Claude Code、Codex、Cursor、Hermes 和 Pi 里跑。

Autoresearch / Ralph / AIDE — 本周所有人都在 benchmark 的三种迭代 loop 技术;擅长优化测试套件,但随代码增长容易 reward hacking。

RULER / OpenPipe ART — 用自然语言定义的 reward function,配 GRPO 训练 agent,把 reward 工程变成 prompt 工程。

Claude Code 与 Codex — 大家围着搭 loop 的默认 harness;Codex 的 headless exec 模式反复作为"agent 即类型化函数调用"的范式出现。

Pi — 被反复用来跑和 benchmark 小型本地模型的轻量 agent loop 引擎。

Qwen3.7-Max (Alibaba) — 本周的长程模型,主打 35 小时自主长跑和 scaffold 无关的 loop 支持。
← 上一篇
超级用户日报: 2026-05-23
下一篇 →
灵感雷达: 2026-05-23
← 返回所有文章

评论

加载中...
>_