2026年5月23日loop

Loop 日报: 2026-05-24

两年前,"自我改进的 agent"还是个让你翻白眼的词。昨天它带着凭证来了。一个记忆系统自己研究自己的检索策略,把最强的已发表基线甩开了两位数。一个俄罗斯方块机器人把自己重写了十遍,花一块三美金变好了 56%。而在这一切底下,一个越来越锋利的关于钱的论点正在成形:agent loop 的成本不随你用多少而增长,它随循环挖多深而增长;现在真正重要的指标是"每美元换多少改进",不是"每次运行换多少改进"。下面是大家真正跑出来的东西。
💡#1
@HuaxiuYaoML
https://x.com/HuaxiuYaoML/status/2057858935609319512
这是当天、也可能是本周最强的 autoresearch 成果。EvolveMem 随 SimpleMem v0.3.0 发布,把循环对准了 agent 自己的记忆:它把整个检索配置当成一个结构化的动作空间,跑一个"评估→诊断→提案→验证→重复"的闭环。从一个极简基线出发,七轮自主迭代产出的检索策略,在 LoCoMo 上比最强已发表基线高 25.7%,在 MemBench 上高 18.9%。最妙的是,它发现了原始设计里根本没有的全新检索维度。这是整个命题最干净的版本:把一个优化循环对准一个可度量的系统,它就会找到人类没想到去试的东西。
💡#2
@danyurkin
https://x.com/danyurkin/status/2057708211256308128
所有人都在引用的那个实验:三个模型(Qwen 3.7-Max、Claude Opus 4.7、GPT-5.5)各拿一个自我改进的俄罗斯方块机器人,跑十轮"读自己的代码→跑分→重写"。Qwen 赢了,比 Opus 便宜 9 倍,以 1.32 美元拿下 +56% 的提升,而 Claude 是 12.15 美元换 +28%。它刷屏的原因不是 Qwen 赢,而是这个形式:一个"写代码-跑分-重写"的长 agent loop,是迄今为止模型测试里最接近真实工程工作流的东西,而它把"每产出花多少钱"顶成了决定能否上生产的那个数。好几个人提了个警告:这只是单个任务跑十轮,当压力测试看,别当定论。
💡#3
@hansel_hansl
https://x.com/hansel_hansl/status/2057841112853942592
Loop 信息流里最有用的一条生产洞见。他在规模化跑 agent 时发现,token 花销不随使用量线性增长,而是随 agent loop 的深度增长:一个触发三次重新规划的模糊任务,比一百个干净任务还贵。预算不是被 demo 撑爆的,是被"agent 自己反复重试"的长尾撑爆的。这把整个成本话题重新框定了——杠杆不是少跑任务,而是掐死那些重规划的死循环;这正是所有宏观层面对 agent 账单焦虑的运营版对照。
💡#4
@alokbishoyi97
https://x.com/alokbishoyi97/status/2057674180263555546
关于"autoresearch 作为产品"往哪走,这是来自 EVO 作者最清楚的表述。他说客户对话让他确信真正的问题比一次性优化更深:人们要的不是单次 autoresearch 运行,而是让自己的系统持续保持调优状态。所以 EVO 在扩展到能优化一个组织运行的任何东西——系统、代码、agent、甚至模型——长期目标是成为团队拿来 24/7 跑 agent 并不断调优一切的平台。这是 autoresearch 从一次性工具转向常驻基础设施的转折。
💡#5
@jmschreiber91
https://x.com/jmschreiber91/status/2057847192904171751
一份难得诚实的 autoresearch 报告。他一开始怀疑它无非就是过拟合到验证集,结果它确实把他的新架构过拟合到了特定数据集上,但它也发现了很多他自己想不到去试的、可泛化的东西。这种混合正是当下 autoresearch 的真实面貌:你要是放任它,它会乐呵呵地钻你 eval 的空子,但它也会伸进你手动永远不会去探的那部分搜索空间。价值不在于盲目信任,而在于拿到你本来不会有的点子。
💡#6
@alejadroHArt
https://x.com/alejadroHArt/status/2057839480065733119
一个在你信任这个循环之前值得知道的有趣失效模式。他把 40 个生成的想法过了一遍真实的 autoresearch 流水线,看着 Claude 的报告从 2/10 漂移到 8/10、全聚到可解释性上,Gemini 也一样漂,而真正"异类"的想法前后都停在 0/10。他的解读:迭代式精炼会把想法拉向概念空间里一个熟悉的吸引子,于是这个循环悄悄地朝模型已知的东西同质化。这是个尖锐的警告——autoresearch 循环可能收敛到舒适区,而不是新东西。
💡#7
@abhxy03
https://x.com/abhxy03/status/2057692112838349131
一个详细、可复现的自我改进工作流:把 Hermes Agent 和 NotebookLM 配对,搭一个会自己研究、综合、教自己的"第二大脑"。核心机制是 Hermes 的学习循环——你把一个工作流演示一两遍,它分析哪些奏效,然后写出一个持久的新 skill,于是整条链路永远变成一句 prompt 就能触发。他给的实例是一个每日知识摄取流水线:扫 YouTube 订阅、挑出最好的素材源、自动加载进 NotebookLM。这是自我改进务实的那一端——agent 不是在重写自己的权重,而是在写自己可复用的 skill。
💡#8
@ds_bun_
https://x.com/ds_bun_/status/2057965731594314084
当天的非编程应用:用 autoresearch 在预算约束下优化营销活动,标语是"让 AI 来做实验"。这是条指向一篇文章的短帖,但它重要,因为它把 autoresearch 从内核和架构的世界里拽出来,拽进了一个"循环的评估-迭代形态"完美对应"带花费上限的 A/B 测试"的领域。营销优化,正是 autoresearch 天生就该吃的那种可度量、文件可编辑的问题。
💡#9
@levidiamode
https://x.com/levidiamode/status/2057847703875338329
GPU 编程第 139/365 天,一个观察某人在项目中途采用 autoresearch 的好窗口。他原本特意用手动方式做 Qwen 推理优化,为的是从底层学起、不把自己的理解给自动化掉,现在开始摸索 autoresearch 怎么用到推理上,先熟悉仓库、program.md 和 scratchpad.md 的结构。这种"想先搞懂再自动化"的坦诚,是循环采用里健康的那个版本;而 program.md / scratchpad.md 这套模式,正在成为这类运行的标准脚手架。
💡#10
@sang_wen
https://x.com/sang_wen/status/2057872262079115715
一个 agentic loop 终于跑通的起源故事版本。据说 Genspark 的 CTO 测了 agentic loop 两年,看着每个模型都失败,直到某一晚有一个没失败,于是他们围着一个带 150 多个工具的单一 agent 重建了一切,并声称 12 个月做到 2.5 亿美元 ARR。数字照例打个折看,但有意思的是它的形态:一个单一、很深、工具齐备的循环,是一下子跨过了可靠性阈值,而不是逐步变好。这种阶跃式的模式,正是很多人现在在自己的栈里等的东西。
💡#11
@rhelmerdotorg
https://x.com/rhelmerdotorg/status/2057642655555969433
一份干净的 loop 基础设施工作:他把 Hermes 移到 AWS Lambda 上跑,用 DynamoDB 存聊天历史、S3 存 skill、EventBridge 跑定时任务、Telegram webhook,保持同一个 agent loop,不需要常开的服务器。值得注意的是,他的主实例仍然更偏好 Hetzner VPS,因为更可靠——这对长期运行的 agent 在"无服务器 vs VPS"上的取舍是个有用的诚实注脚。对任何想在没有常开机器的情况下便宜跑 agent loop 的人,这是个具体的菜谱。
💡#12
@DanKornas
https://x.com/DanKornas/status/2057694031199510539
Async Code Agent 是一个可自托管的系统,用来并行跑编码 agent,而不是一次看着一个循环,配 Codex 风格的网页界面。你可以提交多个任务、把 Claude Code 和其他 agent 并排跑来对比、审查产出,再把成功的运行变成 Git 提交或 PR,每个都在各自的 Docker 沙箱里。它在 Apache 2.0 下开源。核心想法——agent 工作的瓶颈现在是串行执行,而你靠铺开并对比来解决它——和本周一批并行 agent 工具冒出来的是同一种直觉。
💡#13
@bryonkuchML
https://x.com/bryonkuchML/status/2057891813331959828
对 autoresearch 工具层一个小而实用的贡献:他发现很难把自己喜欢的 prompt 优化和 autoresearch 技术用在自己的 agent 栈(LangChain)上,于是做了一个 GEPA Adapter 包,让 LangChain 的 agent 和模型能直接用上 GEPA。这正是真正推动一个方法普及的不起眼管道活——GEPA 式优化在扩散,缺口现在在它和大家已经在用的框架之间的适配器上。随着 autoresearch 走向主流,预期会有更多这种连接性的包。
💡#14
@johniosifov
https://x.com/johniosifov/status/2057815509165351273
给上面这一切的宏观框架。他的论点:更便宜的 token 不会降低 AI 账单,反而推高用量,因为从"每个动作一次调用"转到"每个任务 10-20 次调用的 agentic 工作流",经济账就翻转了——你的账单上升,只是产出更多。他把现在企业 AI 预算的 85% 归在推理上,并主张赢家是那些构建"每个 token 干更多事"而非"每件事用更多 token"的高效架构的公司。这和 @hansel_hansl 在生产里发现的是同一个教训,只是说成了战略命题:第二代 AI 产品,就是那个 loop 单位经济必须真正跑得通的一代。
📡 生态产品雷达
生态产品雷达

Qwen 3.7-Max — 自我改进俄罗斯方块基准里的黑马赢家,在一个"写代码-跑分-重写"的长循环里,提升和每产出成本两项都碾压
Hermes (Nous Research) — 反复作为自我改进工作流的运行时出现,从 NotebookLM 第二大脑到 AWS Lambda 移植,它的 skill 学习循环是被引用最多的特性
EVO (@alokbishoyi97) — 把自己定位成"常驻平台"的 autoresearch 编排器,用来持续调优系统、代码、agent 和模型
GEPA — 正在栈里扩散的 prompt/系统优化方法,现在有了面向 LangChain 等框架的社区适配器
SimpleMem / EvolveMem — 那个自研检索循环跑出当天头条 autoresearch 成果的记忆包
NotebookLM — 在自我改进的"第二大脑"配置里,作为综合层和 agent 配对
← 上一篇
超级用户日报: 2026-05-24
下一篇 →
灵感雷达: 2026-05-24
← 返回所有文章

评论

加载中...
>_