2026年5月24日loop

Loop 日报: 2026-05-24

两年前，"自我改进的 agent"还是个让你翻白眼的词。昨天它带着凭证来了。一个记忆系统自己研究自己的检索策略，把最强的已发表基线甩开了两位数。一个俄罗斯方块机器人把自己重写了十遍，花一块三美金变好了 56%。而在这一切底下，一个越来越锋利的关于钱的论点正在成形：agent loop 的成本不随你用多少而增长，它随循环挖多深而增长；现在真正重要的指标是"每美元换多少改进"，不是"每次运行换多少改进"。下面是大家真正跑出来的东西。

💡#1

@HuaxiuYaoML
https://x.com/HuaxiuYaoML/status/2057858935609319512
这是当天、也可能是本周最强的 autoresearch 成果。EvolveMem 随 SimpleMem v0.3.0 发布，把循环对准了 agent 自己的记忆：它把整个检索配置当成一个结构化的动作空间，跑一个"评估→诊断→提案→验证→重复"的闭环。从一个极简基线出发，七轮自主迭代产出的检索策略，在 LoCoMo 上比最强已发表基线高 25.7%，在 MemBench 上高 18.9%。最妙的是，它发现了原始设计里根本没有的全新检索维度。这是整个命题最干净的版本：把一个优化循环对准一个可度量的系统，它就会找到人类没想到去试的东西。

💡#2

@danyurkin
https://x.com/danyurkin/status/2057708211256308128
所有人都在引用的那个实验：三个模型（Qwen 3.7-Max、Claude Opus 4.7、GPT-5.5）各拿一个自我改进的俄罗斯方块机器人，跑十轮"读自己的代码→跑分→重写"。Qwen 赢了，比 Opus 便宜 9 倍，以 1.32 美元拿下 +56% 的提升，而 Claude 是 12.15 美元换 +28%。它刷屏的原因不是 Qwen 赢，而是这个形式：一个"写代码-跑分-重写"的长 agent loop，是迄今为止模型测试里最接近真实工程工作流的东西，而它把"每产出花多少钱"顶成了决定能否上生产的那个数。好几个人提了个警告：这只是单个任务跑十轮，当压力测试看，别当定论。

💡#3

@hansel_hansl
https://x.com/hansel_hansl/status/2057841112853942592
Loop 信息流里最有用的一条生产洞见。他在规模化跑 agent 时发现，token 花销不随使用量线性增长，而是随 agent loop 的深度增长：一个触发三次重新规划的模糊任务，比一百个干净任务还贵。预算不是被 demo 撑爆的，是被"agent 自己反复重试"的长尾撑爆的。这把整个成本话题重新框定了——杠杆不是少跑任务，而是掐死那些重规划的死循环；这正是所有宏观层面对 agent 账单焦虑的运营版对照。

💡#4

@alokbishoyi97
https://x.com/alokbishoyi97/status/2057674180263555546
关于"autoresearch 作为产品"往哪走，这是来自 EVO 作者最清楚的表述。他说客户对话让他确信真正的问题比一次性优化更深：人们要的不是单次 autoresearch 运行，而是让自己的系统持续保持调优状态。所以 EVO 在扩展到能优化一个组织运行的任何东西——系统、代码、agent、甚至模型——长期目标是成为团队拿来 24/7 跑 agent 并不断调优一切的平台。这是 autoresearch 从一次性工具转向常驻基础设施的转折。

💡#5

@jmschreiber91
https://x.com/jmschreiber91/status/2057847192904171751
一份难得诚实的 autoresearch 报告。他一开始怀疑它无非就是过拟合到验证集，结果它确实把他的新架构过拟合到了特定数据集上，但它也发现了很多他自己想不到去试的、可泛化的东西。这种混合正是当下 autoresearch 的真实面貌：你要是放任它，它会乐呵呵地钻你 eval 的空子，但它也会伸进你手动永远不会去探的那部分搜索空间。价值不在于盲目信任，而在于拿到你本来不会有的点子。

💡#6

@alejadroHArt
https://x.com/alejadroHArt/status/2057839480065733119
一个在你信任这个循环之前值得知道的有趣失效模式。他把 40 个生成的想法过了一遍真实的 autoresearch 流水线，看着 Claude 的报告从 2/10 漂移到 8/10、全聚到可解释性上，Gemini 也一样漂，而真正"异类"的想法前后都停在 0/10。他的解读：迭代式精炼会把想法拉向概念空间里一个熟悉的吸引子，于是这个循环悄悄地朝模型已知的东西同质化。这是个尖锐的警告——autoresearch 循环可能收敛到舒适区，而不是新东西。

💡#7

@abhxy03
https://x.com/abhxy03/status/2057692112838349131
一个详细、可复现的自我改进工作流：把 Hermes Agent 和 NotebookLM 配对，搭一个会自己研究、综合、教自己的"第二大脑"。核心机制是 Hermes 的学习循环——你把一个工作流演示一两遍，它分析哪些奏效，然后写出一个持久的新 skill，于是整条链路永远变成一句 prompt 就能触发。他给的实例是一个每日知识摄取流水线：扫 YouTube 订阅、挑出最好的素材源、自动加载进 NotebookLM。这是自我改进务实的那一端——agent 不是在重写自己的权重，而是在写自己可复用的 skill。

💡#8

@ds_bun_
https://x.com/ds_bun_/status/2057965731594314084
当天的非编程应用：用 autoresearch 在预算约束下优化营销活动，标语是"让 AI 来做实验"。这是条指向一篇文章的短帖，但它重要，因为它把 autoresearch 从内核和架构的世界里拽出来，拽进了一个"循环的评估-迭代形态"完美对应"带花费上限的 A/B 测试"的领域。营销优化，正是 autoresearch 天生就该吃的那种可度量、文件可编辑的问题。

💡#9

@levidiamode
https://x.com/levidiamode/status/2057847703875338329
GPU 编程第 139/365 天，一个观察某人在项目中途采用 autoresearch 的好窗口。他原本特意用手动方式做 Qwen 推理优化，为的是从底层学起、不把自己的理解给自动化掉，现在开始摸索 autoresearch 怎么用到推理上，先熟悉仓库、program.md 和 scratchpad.md 的结构。这种"想先搞懂再自动化"的坦诚，是循环采用里健康的那个版本；而 program.md / scratchpad.md 这套模式，正在成为这类运行的标准脚手架。

💡#10

@sang_wen
https://x.com/sang_wen/status/2057872262079115715
一个 agentic loop 终于跑通的起源故事版本。据说 Genspark 的 CTO 测了 agentic loop 两年，看着每个模型都失败，直到某一晚有一个没失败，于是他们围着一个带 150 多个工具的单一 agent 重建了一切，并声称 12 个月做到 2.5 亿美元 ARR。数字照例打个折看，但有意思的是它的形态：一个单一、很深、工具齐备的循环，是一下子跨过了可靠性阈值，而不是逐步变好。这种阶跃式的模式，正是很多人现在在自己的栈里等的东西。

💡#11

@rhelmerdotorg
https://x.com/rhelmerdotorg/status/2057642655555969433
一份干净的 loop 基础设施工作：他把 Hermes 移到 AWS Lambda 上跑，用 DynamoDB 存聊天历史、S3 存 skill、EventBridge 跑定时任务、Telegram webhook，保持同一个 agent loop，不需要常开的服务器。值得注意的是，他的主实例仍然更偏好 Hetzner VPS，因为更可靠——这对长期运行的 agent 在"无服务器 vs VPS"上的取舍是个有用的诚实注脚。对任何想在没有常开机器的情况下便宜跑 agent loop 的人，这是个具体的菜谱。

💡#12

@DanKornas
https://x.com/DanKornas/status/2057694031199510539
Async Code Agent 是一个可自托管的系统，用来并行跑编码 agent，而不是一次看着一个循环，配 Codex 风格的网页界面。你可以提交多个任务、把 Claude Code 和其他 agent 并排跑来对比、审查产出，再把成功的运行变成 Git 提交或 PR，每个都在各自的 Docker 沙箱里。它在 Apache 2.0 下开源。核心想法——agent 工作的瓶颈现在是串行执行，而你靠铺开并对比来解决它——和本周一批并行 agent 工具冒出来的是同一种直觉。

💡#13

@bryonkuchML
https://x.com/bryonkuchML/status/2057891813331959828
对 autoresearch 工具层一个小而实用的贡献：他发现很难把自己喜欢的 prompt 优化和 autoresearch 技术用在自己的 agent 栈（LangChain）上，于是做了一个 GEPA Adapter 包，让 LangChain 的 agent 和模型能直接用上 GEPA。这正是真正推动一个方法普及的不起眼管道活——GEPA 式优化在扩散，缺口现在在它和大家已经在用的框架之间的适配器上。随着 autoresearch 走向主流，预期会有更多这种连接性的包。

💡#14

@johniosifov
https://x.com/johniosifov/status/2057815509165351273
给上面这一切的宏观框架。他的论点：更便宜的 token 不会降低 AI 账单，反而推高用量，因为从"每个动作一次调用"转到"每个任务 10-20 次调用的 agentic 工作流"，经济账就翻转了——你的账单上升，只是产出更多。他把现在企业 AI 预算的 85% 归在推理上，并主张赢家是那些构建"每个 token 干更多事"而非"每件事用更多 token"的高效架构的公司。这和 @hansel_hansl 在生产里发现的是同一个教训，只是说成了战略命题：第二代 AI 产品，就是那个 loop 单位经济必须真正跑得通的一代。

📡 生态产品雷达

生态产品雷达

Qwen 3.7-Max — 自我改进俄罗斯方块基准里的黑马赢家，在一个"写代码-跑分-重写"的长循环里，提升和每产出成本两项都碾压
Hermes (Nous Research) — 反复作为自我改进工作流的运行时出现，从 NotebookLM 第二大脑到 AWS Lambda 移植，它的 skill 学习循环是被引用最多的特性
EVO (@alokbishoyi97) — 把自己定位成"常驻平台"的 autoresearch 编排器，用来持续调优系统、代码、agent 和模型
GEPA — 正在栈里扩散的 prompt/系统优化方法，现在有了面向 LangChain 等框架的社区适配器
SimpleMem / EvolveMem — 那个自研检索循环跑出当天头条 autoresearch 成果的记忆包
NotebookLM — 在自我改进的"第二大脑"配置里，作为综合层和 agent 配对

← 上一篇

超级用户日报: 2026-05-24

灵感雷达: 2026-05-24

← 返回所有文章

加载中...

Loop 日报: 2026-05-24

相关文章

评论