2026年5月27日loop

Loop 日报: 2026年5月28日

要说这周 agent 圈被哪个想法占领了,那就是循环比模型更重要。大家不再炫一个聪明的 prompt 了,而是炫自己把一个 agent 扔着跑了 12 小时、或者跑了 20 轮、或者跑了 1 万次训练,然后把曲线甩给你看。最清楚的例子是一个交易员,他接了五个并行循环在链上扫描、监控、反思、自我重调,而人根本不在内层循环里。而最聪明的那批人反复落到同一个结论上:免费的 autoresearch 循环是大路货,验证 harness 才是护城河。下面是这周被造出来的东西。
💡#1
@noelclawfun
https://x.com/noelclawfun/status/2059191305612472492
他开源了一个自主链上交易 agent,同时跑五个并行的连续循环。一个 5 分钟扫描循环拉 20 个热门 token,按抄底深度、反弹、情绪、买盘压力、成交量给每个打 0 到 100 分,做防钓鱼检查并自动买入。一个 10 秒监控循环管止损、止盈、移动止损。一个 5 分钟心跳循环快照余额,只在异常时才叫醒 LLM。一个 90 分钟循环让 LLM 切换交易模式,还有一个 4 小时反思循环让它复盘已平仓的交易,自己重新调评分阈值、流动性要求和仓位大小。执行始终是确定性的,LLM 只负责反思、适应和处理异常。
💡#2
@Av1dlive
https://x.com/Av1dlive/status/2059208104030671236
一篇详细记录,讲 Claude Code 用 harness 循环做长跨度自主构建。他统计了每个模型能无人值守跑多久(Opus 3.7 约一小时,4.6 约 12 小时),并点出三种失败模式:上下文、规划、验证。循环本身是这样:一个初始化器把一行 prompt 变成持久化的工件(功能清单存成 JSON、一个进度文件、一个 git 仓库、一个初始化脚本、一个完成标志),然后每次迭代在全新的上下文窗口里开始,读进度,挑一个没做完的功能,实现它,用 Puppeteer 验证,通过就提交。Opus 4.6 强到可以把拆 sprint 和每次会话重置上下文那套脚手架都扔掉。
💡#3
@wandb
https://x.com/wandb/status/2059384575990939783
他干脆利落地讲清了 ML 团队里过夜的 autoresearch 循环到底怎么跑:Claude Code 和 Codex 24/7 不停,提出实验、启动训练、监控结果、准备下一轮迭代,而实验追踪器充当那个可查询的记忆,循环就靠它一轮轮地复利累积。关键洞见是:要想跨多轮持续改进,循环需要的是持久、可查询的状态,而不只是一个长 prompt。
💡#4
@hyprbots
https://x.com/hyprbots/status/2059177762003546555
Hyperbots 说自己的 ML 研究栈本身就是由一个自主多 agent 系统在跑,端到端覆盖整个 LLM/VLM 生命周期:文献综述、数据集分析、基础设施搭建、分布式训练与监控、评估、失败分析、写报告,全程带持久的实验记忆。架构是一个编排器加七个专门的研究工程子 agent,每个都在最少人工介入下跑连续的实验循环,他们号称在金融 AI 工作上吞吐量提升了 10 到 15 倍。
💡#5
@ChaseWang
https://x.com/ChaseWang/status/2059161913959788711
他对自己的 X 历史存档跑了 20 轮 autoresearch,做出一个能用他自己口吻起草的 skill。口吻还原度评分从 8.53 爬到 9.97,而其中约 98% 的提升都发生在第 1 到第 6 轮。他的总结是"规范是残渣,协议才是产品",这句话干净地说明了为什么循环本身比任何单次产出更重要。这是个难得的非 ML、内容生产方向的 autoresearch 应用。
💡#6
@kwindla
https://x.com/kwindla/status/2059300287689756962
他给 Cerebras 上跑的万亿参数 Kimi K2.6 做了语音 agent 场景的基准测试:650 到 1000 token/秒,首 token 延迟约 150 毫秒。在他的 30 轮语音 agent 基准里,开了推理的 K2.6 追平 GPT-5.1 和 Haiku 4.5,还快约 200 毫秒;在他主要的任务 agent 基准里排第二,每个 agent 循环回合在 500 毫秒内完成,而竞品要慢 3 倍以上。这速度甚至让模型能在单个回合内先吐结构化数据再吐纯文本。
💡#7
@MEGAcodePaul
https://x.com/MEGAcodePaul/status/2059299925205373208
他介绍了 MEGA / AgentOpt,一个针对 agent 工作流的闭环优化器。它读你的源代码,外科手术式地改 LLM 流水线的组件(某个节点上的工具、重试策略、单条 prompt),记录每一步操作,同时盯着准确率、延迟和 token 消耗,任何把延迟或成本顶过阈值的候选方案都自动回滚。在一个聚合了 HotpotQA、IFBench、HoVer、PUPA 的工作流优化基准上,它报出 76.55 分,基线是 52.67,并且超过了 GEPA 的 69.52。
💡#8
@JoseCSancho
https://x.com/JoseCSancho/status/2059368252262830295
他给出一套垂直领域的 autoresearch 打法,还附了引用的佐证:fork karpathy/autoresearch,把它接到一个干净的数值指标上(冷邮件回复率、落地页转化、ROAS、夏普比率),然后当成代做服务卖出去——护城河是那套 eval harness,而不是免费的循环本身。他的佐证是本周最值得引用的几条:Shopify 靠 93 次自动提交把模板化提速 53%,"25 美元加一块 GPU 等于一夜跑 83 个 ML 实验",以及运营者在 4 到 6 周内把冷外联回复率从 2-4% 提到 8-12%。
💡#9
@Risanuria235755
https://x.com/Risanuria235755/status/2059138775100563680
他指向一个自主刷速通的存档:Claude Code 和 Codex 在 modded-nanogpt 的训练速通上比赛——1 万多次训练运行、600 多份点子记录,外加为期两周的并行 autoresearch 爆发,完整记录了每个 agent 试了什么、什么时候试的、有没有成。这是个难得的、能真去翻阅的大规模并行 autoresearch 实物档案,而不只是一句口号。
💡#10
@tarush_agarwal_
https://x.com/tarush_agarwal_/status/2059280644795203883
Cekura 联手 ElevenLabs 给语音 agent 闭上了环:语音 agent 在生产里翻车时,Cekura 在仿真里复现这次失败,找到根因,改 prompt 和设置,再验证修好了没有。这是把"生产失败 → 仿真复现 → 验证修复"这条循环用到了一个特殊领域——你没法对着那个已经挂断电话的真实客户重跑一遍。
💡#11
@dosco
https://x.com/dosco/status/2059338102230135198
他拆解了 aithy 背后的研究根基,并把每一块对应到一个具体机制:DSPy 负责声明式签名和带类型的输入输出,让确定性代码处理解析和路由;递归语言模型用代码检视历史、在各阶段之间传递压缩后的证据,把上下文当成可检视的外部状态;一篇关于错误记忆的论文警告要让摘要扎根于原始记录、别反复自动归并;还有"Grep 就够了吗"那篇讲 grep 优先的混合检索。这是一份真有技术含量的阅读清单,关于 agent 记忆和 autoresearch 方法论。
💡#12
@SwishMoe
https://x.com/SwishMoe/status/2059422896154374419
他围绕 SimpleMem/EvolveMem 做了个法律 AI,把 autoresearch 不只用来存记忆,而是用来改进"记忆怎么被取出来"——靠一条评估、诊断、提案、验证、再来一遍的循环。动机是几种具体的法律失败模式:模型取错条款、漏掉一份上传的协议、丢掉前文上下文。把检索本身拿来优化、而不是往上下文里塞更多东西,是这里有意思的地方。
💡#13
@jacob_dietle
https://x.com/jacob_dietle/status/2059422880254054810
他用一个 codemode MCP 加工厂模式去封装那些现成工具很烂的 API,比如 HubSpot 的 MCP。他跑一个 autoresearch 式的循环,prompt 和 codemode 一起迭代,用一套评分标准做反压,先优化性能、只在循环快结束时才精简长度,把性能损失压到最小。他把 /eval-loop 这个 skill 开源了。
💡#14
@mrluiscalderon
https://x.com/mrluiscalderon/status/2059333756113096879
他介绍了 SkillForge v6.1:agent 运行时吐遥测数据,当同一个缺口反复出现,系统就提出一个新 skill 或一次修订,由运营者批准,之后所有未来的 agent 都继承它。这是带审批闸的自我改进记忆——而这恰恰是大多数"自己改自己的 agent"演示里缺的那块,那些演示往往放任 agent 没人管地乱改。
💡#15
@realbarnakiss
https://x.com/realbarnakiss/status/2059259121279418693
他测了 Composer 2.5(一种 RL 加 LLM 的架构),报了一个具体的实测失败:在 ZK 代码库上跑 autoresearch 循环时,大约 40 到 50 轮就会撞上一个绕不开的 RL 回退。范围很窄,但这恰恰是 autoresearch 圈最需要的那种具体、可复现的观察,而不是"循环会永远越跑越好"那种含糊其辞的说法。
📡 生态产品雷达
生态产品雷达
Hermes Agent(Nous Research),目前被提及最多的框架,大家拿来做基准的那个自托管循环跑手。Claude Code 和 Codex,被 24/7 一直挂着跑的两台主力。karpathy/autoresearch,大家反复 fork 的那个 MIT 参考循环。SkillOpt,把 skill 文件当成可训练参数的框架。EVO,两条命令就能在任意仓库上开 autoresearch 的开源编排器。GEPA 和 DSPy,认真的开发者会引用的优化机制。另外冒头的:pi-autoresearch 作为一个极简参考实现。
← 上一篇
超级用户日报: 2026年5月28日
下一篇 →
灵感雷达: 2026年5月28日
← 返回所有文章

评论

加载中...
>_