2026年5月28日loop

Loop 日报: 2026年5月28日

要说这周 agent 圈被哪个想法占领了，那就是循环比模型更重要。大家不再炫一个聪明的 prompt 了，而是炫自己把一个 agent 扔着跑了 12 小时、或者跑了 20 轮、或者跑了 1 万次训练，然后把曲线甩给你看。最清楚的例子是一个交易员，他接了五个并行循环在链上扫描、监控、反思、自我重调，而人根本不在内层循环里。而最聪明的那批人反复落到同一个结论上：免费的 autoresearch 循环是大路货，验证 harness 才是护城河。下面是这周被造出来的东西。

💡#1

@noelclawfun
https://x.com/noelclawfun/status/2059191305612472492
他开源了一个自主链上交易 agent，同时跑五个并行的连续循环。一个 5 分钟扫描循环拉 20 个热门 token，按抄底深度、反弹、情绪、买盘压力、成交量给每个打 0 到 100 分，做防钓鱼检查并自动买入。一个 10 秒监控循环管止损、止盈、移动止损。一个 5 分钟心跳循环快照余额，只在异常时才叫醒 LLM。一个 90 分钟循环让 LLM 切换交易模式，还有一个 4 小时反思循环让它复盘已平仓的交易，自己重新调评分阈值、流动性要求和仓位大小。执行始终是确定性的，LLM 只负责反思、适应和处理异常。

💡#2

@Av1dlive
https://x.com/Av1dlive/status/2059208104030671236
一篇详细记录，讲 Claude Code 用 harness 循环做长跨度自主构建。他统计了每个模型能无人值守跑多久（Opus 3.7 约一小时，4.6 约 12 小时），并点出三种失败模式：上下文、规划、验证。循环本身是这样：一个初始化器把一行 prompt 变成持久化的工件（功能清单存成 JSON、一个进度文件、一个 git 仓库、一个初始化脚本、一个完成标志），然后每次迭代在全新的上下文窗口里开始，读进度，挑一个没做完的功能，实现它，用 Puppeteer 验证，通过就提交。Opus 4.6 强到可以把拆 sprint 和每次会话重置上下文那套脚手架都扔掉。

💡#3

@wandb
https://x.com/wandb/status/2059384575990939783
他干脆利落地讲清了 ML 团队里过夜的 autoresearch 循环到底怎么跑：Claude Code 和 Codex 24/7 不停，提出实验、启动训练、监控结果、准备下一轮迭代，而实验追踪器充当那个可查询的记忆，循环就靠它一轮轮地复利累积。关键洞见是：要想跨多轮持续改进，循环需要的是持久、可查询的状态，而不只是一个长 prompt。

💡#4

@hyprbots
https://x.com/hyprbots/status/2059177762003546555
Hyperbots 说自己的 ML 研究栈本身就是由一个自主多 agent 系统在跑，端到端覆盖整个 LLM/VLM 生命周期：文献综述、数据集分析、基础设施搭建、分布式训练与监控、评估、失败分析、写报告，全程带持久的实验记忆。架构是一个编排器加七个专门的研究工程子 agent，每个都在最少人工介入下跑连续的实验循环，他们号称在金融 AI 工作上吞吐量提升了 10 到 15 倍。

💡#5

@ChaseWang
https://x.com/ChaseWang/status/2059161913959788711
他对自己的 X 历史存档跑了 20 轮 autoresearch，做出一个能用他自己口吻起草的 skill。口吻还原度评分从 8.53 爬到 9.97，而其中约 98% 的提升都发生在第 1 到第 6 轮。他的总结是"规范是残渣，协议才是产品"，这句话干净地说明了为什么循环本身比任何单次产出更重要。这是个难得的非 ML、内容生产方向的 autoresearch 应用。

💡#6

@kwindla
https://x.com/kwindla/status/2059300287689756962
他给 Cerebras 上跑的万亿参数 Kimi K2.6 做了语音 agent 场景的基准测试：650 到 1000 token/秒，首 token 延迟约 150 毫秒。在他的 30 轮语音 agent 基准里，开了推理的 K2.6 追平 GPT-5.1 和 Haiku 4.5，还快约 200 毫秒；在他主要的任务 agent 基准里排第二，每个 agent 循环回合在 500 毫秒内完成，而竞品要慢 3 倍以上。这速度甚至让模型能在单个回合内先吐结构化数据再吐纯文本。

💡#7

@MEGAcodePaul
https://x.com/MEGAcodePaul/status/2059299925205373208
他介绍了 MEGA / AgentOpt，一个针对 agent 工作流的闭环优化器。它读你的源代码，外科手术式地改 LLM 流水线的组件（某个节点上的工具、重试策略、单条 prompt），记录每一步操作，同时盯着准确率、延迟和 token 消耗，任何把延迟或成本顶过阈值的候选方案都自动回滚。在一个聚合了 HotpotQA、IFBench、HoVer、PUPA 的工作流优化基准上，它报出 76.55 分，基线是 52.67，并且超过了 GEPA 的 69.52。

💡#8

@JoseCSancho
https://x.com/JoseCSancho/status/2059368252262830295
他给出一套垂直领域的 autoresearch 打法，还附了引用的佐证：fork karpathy/autoresearch，把它接到一个干净的数值指标上（冷邮件回复率、落地页转化、ROAS、夏普比率），然后当成代做服务卖出去——护城河是那套 eval harness，而不是免费的循环本身。他的佐证是本周最值得引用的几条：Shopify 靠 93 次自动提交把模板化提速 53%，"25 美元加一块 GPU 等于一夜跑 83 个 ML 实验"，以及运营者在 4 到 6 周内把冷外联回复率从 2-4% 提到 8-12%。

💡#9

@Risanuria235755
https://x.com/Risanuria235755/status/2059138775100563680
他指向一个自主刷速通的存档：Claude Code 和 Codex 在 modded-nanogpt 的训练速通上比赛——1 万多次训练运行、600 多份点子记录，外加为期两周的并行 autoresearch 爆发，完整记录了每个 agent 试了什么、什么时候试的、有没有成。这是个难得的、能真去翻阅的大规模并行 autoresearch 实物档案，而不只是一句口号。

💡#10

@tarush_agarwal_
https://x.com/tarush_agarwal_/status/2059280644795203883
Cekura 联手 ElevenLabs 给语音 agent 闭上了环：语音 agent 在生产里翻车时，Cekura 在仿真里复现这次失败，找到根因，改 prompt 和设置，再验证修好了没有。这是把"生产失败 → 仿真复现 → 验证修复"这条循环用到了一个特殊领域——你没法对着那个已经挂断电话的真实客户重跑一遍。

💡#11

@dosco
https://x.com/dosco/status/2059338102230135198
他拆解了 aithy 背后的研究根基，并把每一块对应到一个具体机制：DSPy 负责声明式签名和带类型的输入输出，让确定性代码处理解析和路由；递归语言模型用代码检视历史、在各阶段之间传递压缩后的证据，把上下文当成可检视的外部状态；一篇关于错误记忆的论文警告要让摘要扎根于原始记录、别反复自动归并；还有"Grep 就够了吗"那篇讲 grep 优先的混合检索。这是一份真有技术含量的阅读清单，关于 agent 记忆和 autoresearch 方法论。

💡#12

@SwishMoe
https://x.com/SwishMoe/status/2059422896154374419
他围绕 SimpleMem/EvolveMem 做了个法律 AI，把 autoresearch 不只用来存记忆，而是用来改进"记忆怎么被取出来"——靠一条评估、诊断、提案、验证、再来一遍的循环。动机是几种具体的法律失败模式：模型取错条款、漏掉一份上传的协议、丢掉前文上下文。把检索本身拿来优化、而不是往上下文里塞更多东西，是这里有意思的地方。

💡#13

@jacob_dietle
https://x.com/jacob_dietle/status/2059422880254054810
他用一个 codemode MCP 加工厂模式去封装那些现成工具很烂的 API，比如 HubSpot 的 MCP。他跑一个 autoresearch 式的循环，prompt 和 codemode 一起迭代，用一套评分标准做反压，先优化性能、只在循环快结束时才精简长度，把性能损失压到最小。他把 /eval-loop 这个 skill 开源了。

💡#14

@mrluiscalderon
https://x.com/mrluiscalderon/status/2059333756113096879
他介绍了 SkillForge v6.1：agent 运行时吐遥测数据，当同一个缺口反复出现，系统就提出一个新 skill 或一次修订，由运营者批准，之后所有未来的 agent 都继承它。这是带审批闸的自我改进记忆——而这恰恰是大多数"自己改自己的 agent"演示里缺的那块，那些演示往往放任 agent 没人管地乱改。

💡#15

@realbarnakiss
https://x.com/realbarnakiss/status/2059259121279418693
他测了 Composer 2.5（一种 RL 加 LLM 的架构），报了一个具体的实测失败：在 ZK 代码库上跑 autoresearch 循环时，大约 40 到 50 轮就会撞上一个绕不开的 RL 回退。范围很窄，但这恰恰是 autoresearch 圈最需要的那种具体、可复现的观察，而不是"循环会永远越跑越好"那种含糊其辞的说法。

📡 生态产品雷达

生态产品雷达
Hermes Agent（Nous Research），目前被提及最多的框架，大家拿来做基准的那个自托管循环跑手。Claude Code 和 Codex，被 24/7 一直挂着跑的两台主力。karpathy/autoresearch，大家反复 fork 的那个 MIT 参考循环。SkillOpt，把 skill 文件当成可训练参数的框架。EVO，两条命令就能在任意仓库上开 autoresearch 的开源编排器。GEPA 和 DSPy，认真的开发者会引用的优化机制。另外冒头的：pi-autoresearch 作为一个极简参考实现。

← 上一篇

超级用户日报: 2026年5月28日

灵感雷达: 2026年5月28日

← 返回所有文章

加载中...

Loop 日报: 2026年5月28日

相关文章

评论