2026年5月25日loop

Loop 日报: 2026年5月25日

autoresearch循环从Karpathy周末搞的一个repo，变成了大家拿来对准自己问题的东西，而5月23日这天，它扩散的范围比代码本身更宽：一个在检索上吊打一切的微调嵌入模型、一个每晚重写自己策略的Polymarket机器人、靠搜编译配置爬最后1%的固件，以及一整套"把公司当成一组自我改进循环来运行"的思路。对话的另一半是账单——每一次循环迭代烧的token是单次提示的10到100倍，而真正在过夜跑这些循环的人，都在死磕缓存、上下文净化、以及钱到底花在哪。下面是谁在搭这个循环、又学到了什么。

💡#1

@alokbishoyi97
https://x.com/alokbishoyi97/status/2058054065205182577
他开源了evo——一个基于Karpathy思路的autoresearch与优化平台，现在已经装在近6000个系统上、GitHub 700+星。卖点是让autoresearch对普通人也实用：并行agent做树搜索、用gate防止不想要的行为、能跑在任意基础设施上（AWS、Azure、Modal、e2b）。用户反馈说跑出了科研级SOTA结果，以及在自己已经手动调了很久的系统上拿到了意料之外的优化。在后续帖里他还在试：当orchestrator分发子agent时，每个epoch加一个reviewer，这种"顾问模式"他在tobi的配置、以及lossfunk团队的autoresearch循环里都见到过。

💡#2

@cryptof4ck
https://x.com/cryptof4ck/status/2058095833631863175
一位交易员用一个自我改进循环把Polymarket账户变成了印钞机，而这个循环就是全部的edge。技术栈很小——Claude Opus 4.7当大脑读信号、开源Hermes agent当身体、一台便宜VPS加Telegram提醒，专攻BTC 5分钟涨跌市场、用马尔可夫链做持续性分析。危险的部分每晚跑：agent复盘整本交易日志、分析每一笔盈亏，自动更新自己的概率阈值、凯利仓位和edge要求。每跑一轮它就更锋利一点，这正是把autoresearch循环用在了真金白银、而不是训练代码上。

💡#3

@SergheiLefter
https://x.com/SergheiLefter/status/2058226794965221699
一个人，迭代地、用auto-research，专门为长转录文本微调了一个嵌入模型，针对语义转折和正负语义关键词调优。他说在nDCG和检索上甩开现有任何方案一截，下载量为零，因为完全是内部用。这是autoresearch承诺的安静版本——不是论文也不是发布，就是一个个人在一个对他真正重要的窄问题上，把公开模型给优化掉了。

💡#4

@levidiamode
https://x.com/levidiamode/status/2058252463229071587
他GPU编程年的第140天，第一次跑autoresearch式的循环实验，立刻学到的一课是：监控成了关键的副任务。为了盯住任务队列、GPU利用率、瓶颈、报错、假设和验证，他临时搭了个轻量实时仪表盘（类似TensorBoard那样看GPU状态），外加一个每10分钟更新的HTML看板，记录当前假设、过往实验和他问过问题的滚动FAQ。这套不算最高效，但能让他真正看清Claude和Codex到底在优化什么——而这恰恰是大多数循环demo跳过的部分。

💡#5

@learnwithella
https://x.com/learnwithella/status/2058246554520289352
她在跑自我改进的Claude Code skill，循环很干净：一次运行用不同输入触发skill 10次，一个独立的评估器按3-5条二元标准给每个输出打分、找出最常见的失败模式、重写skill提示词、重测、保留胜出者，直到分数平台期。一个写hook的skill一夜之间从32/50涨到47/50，全程不用手动改提示词。她的定位很到位——这就是AI实验室用来改进自己模型的同一个循环，被对准了DTC创意工作流：一个skill有70%时候很好、另外30%没法用，这套方法直接消灭了"它成功过一次但我没法复现"的难题。

💡#6

@samrexford
https://x.com/samrexford/status/2058293501771846114
他把Karpathy的autoresearch改造成了一个叫/autodev的skill并发到GitHub：agent构建、评估、迭代，直到功能完成才停，每一步都验证正确性。他诚实的反馈正是你想看到的质感——走开一会儿回来发现已经10次提交，挺让人心慌的，但在他的栈里效果一直很好。他在前面塞了个启动命令块，让AI自动适配你的栈和风险偏好、用完就自毁，同时坦白自己也不确定那玩意儿能不能扛住。真实的循环，真实的不确定，照样发了出来。

💡#7

@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2057979256999927954
他做了个Codex的auto-research分叉，同时对准一堆硬问题：用一个stock-prediction仓库去赢股市、给小LLM做"参数高尔夫"、优化diffusion。有意思的做法是把auto-research当成一个通用引擎、而不是单个实验——一个分叉出来的harness同时瞄准金融、模型压缩和生成模型。这是一个人的autoresearch实验室早期、糙但真实的样子。

💡#8

@seevali
https://x.com/seevali/status/2058129411015397871
他跑了个过夜agent循环，产出了真实提交，但烧光每周额度的速度比他自己写还快——这就是循环诚实的成本故事。他找到的泄漏点很精确：`claude --max-turns 1 "say hi"`在你的提示词落地之前就消耗了68K token。解法是prompt缓存，把成本压到约4%。这正是决定一个过夜循环到底是天才还是昂贵亏钱方式的、不起眼的经济账，而且它挂在"让agent自主磨"的RalphLoop模式上。

💡#9

@navalpodcast
https://x.com/navalpodcast/status/2058307106584072653
这份对Tom Blomfield《烧token，不烧人头》演讲的高管简报，是把"循环"当作整家公司运营模式（而不只是程序员工具）最清晰的表述。论点是：AI原生公司是一组递归的、自我改进的循环——感知世界、做决策、用工具、过质量门、从结果学习、再循环。那个"卧槽时刻"不是agent回答了一个问题，而是一个监控agent盯着每一次失败的查询、然后把系统的下一版发出去：找到bug、更新skill文件、开PR、review、合并、部署，全在你睡觉时完成。烧token而不是烧人头，把人留在判断重要的边缘地带。

💡#10

@mrru5s3ll
https://x.com/mrru5s3ll/status/2058081192671691237
Honey-Comb是对长agent循环真正瓶颈——上下文膨胀——最深思熟虑的一次进攻。它在任何东西进模型之前做纯CPU的内联上下文净化：每条进入循环的消息在1.5ms内被分类为CORE、DISTILL、COMPACT或DROP，再用确定性的正则提取器剥离，没有LLM摘要器、没有临时拍脑袋的压缩阈值。在一次10轮的编码agent会话里，它把一次514 token的文件读取压到5个、把60行的测试失败压到93个，整个会话从4062 token降到640，6.3倍压缩、抹掉84%的噪声。它对局限也很诚实——只对结构化工具输出管用、不适合自由聊天，标错还会丢数据，但它已经在生产环境跑、吞吐量是真实跑过基准的。

💡#11

@akshay_krips
https://x.com/akshay_krips/status/2058286616339460251
一个具体、窄的胜利：Codex写固件极好，头几次迭代就能到最大性能的约95%，而最后那1%可以靠足够多的autoresearch循环去搜出最优的构建和编译器配置。一条小推文，却是循环干那种人类永远没耐心干的"最后百分点搜索"的干净例子——而且是在配置搜索空间正好对autoresearch胃口的领域。

💡#12

@HanifCarroll
https://x.com/HanifCarroll/status/2058174111436706117
他用agent干活的笔记读起来像一套在成熟的"生产环境跑循环"打法。他自己已经不再敲git或shell命令、全交给agent；做大型重构时，他让agent自主并行跑，并在开始前先定义好"完成"长什么样，这样就有了真正的停止条件。剩下的是循环卫生——宁要正确的长期形态也不要半吊子方案、文件保持在约1500行以内、超了就跑几轮重构、当LLM一直输出垃圾时就把结果交给第二个LLM清理而不是堆规则。他的工作已经转向定义什么叫"好"、并防止系统漂移。

💡#13

@sitin_dev
https://x.com/sitin_dev/status/2058070673155649817
对Karpathy的autoresearch为什么重要的一个干净解释：你给AI agent一个真实的、小规模的LLM训练任务，让它跑完整的研究循环——它编辑训练代码、在单张GPU上跑约5分钟的实验、检查验证指标，变好就留、没变好就回退。所以不再是只用AI写代码，而是agent真的在做迭代研究：提出、运行、评估、决定、重复。他的定位很对——这是agent在受控实验环境里成为初级研究员的早期一瞥。

📡 生态产品雷达

生态产品雷达

evo：基于Karpathy思路的开源autoresearch/优化平台，约6000次安装、700+星，并行树搜索agent加行为gate，可跑在AWS/Azure/Modal/e2b。本周最出圈的autoresearch工具。

Karpathy's autoresearch：那个被当成起点的参考repo和范式（改代码、跑5分钟GPU实验、按指标留或回退），本周几乎每个循环项目都在分叉它、改成skill、或引用它当起点。

Managed Agents（谷歌+Anthropic）：agent循环搬到服务端、按token计费、带沙箱harness，被反复点名为"把harness从框架选择变成了模型功能"。

Claude Code / Codex：大家真正在上面跑循环的两个harness——Claude Code用于自我改进skill和过夜循环，Codex被分叉用于auto-research和固件配置搜索。

Hermes Agent：自我改进循环的本地优先开源"身体"，出现在Polymarket交易循环和持久自我改进工作区的执行层里。

← 上一篇

超级用户日报: 2026年5月25日

灵感雷达: 2026年5月25日

← 返回所有文章

加载中...

Loop 日报: 2026年5月25日

相关文章

评论