Loop 日报: 2026年5月25日
autoresearch循环从Karpathy周末搞的一个repo,变成了大家拿来对准自己问题的东西,而5月23日这天,它扩散的范围比代码本身更宽:一个在检索上吊打一切的微调嵌入模型、一个每晚重写自己策略的Polymarket机器人、靠搜编译配置爬最后1%的固件,以及一整套"把公司当成一组自我改进循环来运行"的思路。对话的另一半是账单——每一次循环迭代烧的token是单次提示的10到100倍,而真正在过夜跑这些循环的人,都在死磕缓存、上下文净化、以及钱到底花在哪。下面是谁在搭这个循环、又学到了什么。
#1
@alokbishoyi97
https://x.com/alokbishoyi97/status/2058054065205182577
他开源了evo——一个基于Karpathy思路的autoresearch与优化平台,现在已经装在近6000个系统上、GitHub 700+星。卖点是让autoresearch对普通人也实用:并行agent做树搜索、用gate防止不想要的行为、能跑在任意基础设施上(AWS、Azure、Modal、e2b)。用户反馈说跑出了科研级SOTA结果,以及在自己已经手动调了很久的系统上拿到了意料之外的优化。在后续帖里他还在试:当orchestrator分发子agent时,每个epoch加一个reviewer,这种"顾问模式"他在tobi的配置、以及lossfunk团队的autoresearch循环里都见到过。
https://x.com/alokbishoyi97/status/2058054065205182577
他开源了evo——一个基于Karpathy思路的autoresearch与优化平台,现在已经装在近6000个系统上、GitHub 700+星。卖点是让autoresearch对普通人也实用:并行agent做树搜索、用gate防止不想要的行为、能跑在任意基础设施上(AWS、Azure、Modal、e2b)。用户反馈说跑出了科研级SOTA结果,以及在自己已经手动调了很久的系统上拿到了意料之外的优化。在后续帖里他还在试:当orchestrator分发子agent时,每个epoch加一个reviewer,这种"顾问模式"他在tobi的配置、以及lossfunk团队的autoresearch循环里都见到过。
#2
@cryptof4ck
https://x.com/cryptof4ck/status/2058095833631863175
一位交易员用一个自我改进循环把Polymarket账户变成了印钞机,而这个循环就是全部的edge。技术栈很小——Claude Opus 4.7当大脑读信号、开源Hermes agent当身体、一台便宜VPS加Telegram提醒,专攻BTC 5分钟涨跌市场、用马尔可夫链做持续性分析。危险的部分每晚跑:agent复盘整本交易日志、分析每一笔盈亏,自动更新自己的概率阈值、凯利仓位和edge要求。每跑一轮它就更锋利一点,这正是把autoresearch循环用在了真金白银、而不是训练代码上。
https://x.com/cryptof4ck/status/2058095833631863175
一位交易员用一个自我改进循环把Polymarket账户变成了印钞机,而这个循环就是全部的edge。技术栈很小——Claude Opus 4.7当大脑读信号、开源Hermes agent当身体、一台便宜VPS加Telegram提醒,专攻BTC 5分钟涨跌市场、用马尔可夫链做持续性分析。危险的部分每晚跑:agent复盘整本交易日志、分析每一笔盈亏,自动更新自己的概率阈值、凯利仓位和edge要求。每跑一轮它就更锋利一点,这正是把autoresearch循环用在了真金白银、而不是训练代码上。
#3
@SergheiLefter
https://x.com/SergheiLefter/status/2058226794965221699
一个人,迭代地、用auto-research,专门为长转录文本微调了一个嵌入模型,针对语义转折和正负语义关键词调优。他说在nDCG和检索上甩开现有任何方案一截,下载量为零,因为完全是内部用。这是autoresearch承诺的安静版本——不是论文也不是发布,就是一个个人在一个对他真正重要的窄问题上,把公开模型给优化掉了。
https://x.com/SergheiLefter/status/2058226794965221699
一个人,迭代地、用auto-research,专门为长转录文本微调了一个嵌入模型,针对语义转折和正负语义关键词调优。他说在nDCG和检索上甩开现有任何方案一截,下载量为零,因为完全是内部用。这是autoresearch承诺的安静版本——不是论文也不是发布,就是一个个人在一个对他真正重要的窄问题上,把公开模型给优化掉了。
#4
@levidiamode
https://x.com/levidiamode/status/2058252463229071587
他GPU编程年的第140天,第一次跑autoresearch式的循环实验,立刻学到的一课是:监控成了关键的副任务。为了盯住任务队列、GPU利用率、瓶颈、报错、假设和验证,他临时搭了个轻量实时仪表盘(类似TensorBoard那样看GPU状态),外加一个每10分钟更新的HTML看板,记录当前假设、过往实验和他问过问题的滚动FAQ。这套不算最高效,但能让他真正看清Claude和Codex到底在优化什么——而这恰恰是大多数循环demo跳过的部分。
https://x.com/levidiamode/status/2058252463229071587
他GPU编程年的第140天,第一次跑autoresearch式的循环实验,立刻学到的一课是:监控成了关键的副任务。为了盯住任务队列、GPU利用率、瓶颈、报错、假设和验证,他临时搭了个轻量实时仪表盘(类似TensorBoard那样看GPU状态),外加一个每10分钟更新的HTML看板,记录当前假设、过往实验和他问过问题的滚动FAQ。这套不算最高效,但能让他真正看清Claude和Codex到底在优化什么——而这恰恰是大多数循环demo跳过的部分。
#5
@learnwithella
https://x.com/learnwithella/status/2058246554520289352
她在跑自我改进的Claude Code skill,循环很干净:一次运行用不同输入触发skill 10次,一个独立的评估器按3-5条二元标准给每个输出打分、找出最常见的失败模式、重写skill提示词、重测、保留胜出者,直到分数平台期。一个写hook的skill一夜之间从32/50涨到47/50,全程不用手动改提示词。她的定位很到位——这就是AI实验室用来改进自己模型的同一个循环,被对准了DTC创意工作流:一个skill有70%时候很好、另外30%没法用,这套方法直接消灭了"它成功过一次但我没法复现"的难题。
https://x.com/learnwithella/status/2058246554520289352
她在跑自我改进的Claude Code skill,循环很干净:一次运行用不同输入触发skill 10次,一个独立的评估器按3-5条二元标准给每个输出打分、找出最常见的失败模式、重写skill提示词、重测、保留胜出者,直到分数平台期。一个写hook的skill一夜之间从32/50涨到47/50,全程不用手动改提示词。她的定位很到位——这就是AI实验室用来改进自己模型的同一个循环,被对准了DTC创意工作流:一个skill有70%时候很好、另外30%没法用,这套方法直接消灭了"它成功过一次但我没法复现"的难题。
#6
@samrexford
https://x.com/samrexford/status/2058293501771846114
他把Karpathy的autoresearch改造成了一个叫/autodev的skill并发到GitHub:agent构建、评估、迭代,直到功能完成才停,每一步都验证正确性。他诚实的反馈正是你想看到的质感——走开一会儿回来发现已经10次提交,挺让人心慌的,但在他的栈里效果一直很好。他在前面塞了个启动命令块,让AI自动适配你的栈和风险偏好、用完就自毁,同时坦白自己也不确定那玩意儿能不能扛住。真实的循环,真实的不确定,照样发了出来。
https://x.com/samrexford/status/2058293501771846114
他把Karpathy的autoresearch改造成了一个叫/autodev的skill并发到GitHub:agent构建、评估、迭代,直到功能完成才停,每一步都验证正确性。他诚实的反馈正是你想看到的质感——走开一会儿回来发现已经10次提交,挺让人心慌的,但在他的栈里效果一直很好。他在前面塞了个启动命令块,让AI自动适配你的栈和风险偏好、用完就自毁,同时坦白自己也不确定那玩意儿能不能扛住。真实的循环,真实的不确定,照样发了出来。
#7
@LeeLeepenkman
https://x.com/LeeLeepenkman/status/2057979256999927954
他做了个Codex的auto-research分叉,同时对准一堆硬问题:用一个stock-prediction仓库去赢股市、给小LLM做"参数高尔夫"、优化diffusion。有意思的做法是把auto-research当成一个通用引擎、而不是单个实验——一个分叉出来的harness同时瞄准金融、模型压缩和生成模型。这是一个人的autoresearch实验室早期、糙但真实的样子。
https://x.com/LeeLeepenkman/status/2057979256999927954
他做了个Codex的auto-research分叉,同时对准一堆硬问题:用一个stock-prediction仓库去赢股市、给小LLM做"参数高尔夫"、优化diffusion。有意思的做法是把auto-research当成一个通用引擎、而不是单个实验——一个分叉出来的harness同时瞄准金融、模型压缩和生成模型。这是一个人的autoresearch实验室早期、糙但真实的样子。
#8
@seevali
https://x.com/seevali/status/2058129411015397871
他跑了个过夜agent循环,产出了真实提交,但烧光每周额度的速度比他自己写还快——这就是循环诚实的成本故事。他找到的泄漏点很精确:`claude --max-turns 1 "say hi"`在你的提示词落地之前就消耗了68K token。解法是prompt缓存,把成本压到约4%。这正是决定一个过夜循环到底是天才还是昂贵亏钱方式的、不起眼的经济账,而且它挂在"让agent自主磨"的RalphLoop模式上。
https://x.com/seevali/status/2058129411015397871
他跑了个过夜agent循环,产出了真实提交,但烧光每周额度的速度比他自己写还快——这就是循环诚实的成本故事。他找到的泄漏点很精确:`claude --max-turns 1 "say hi"`在你的提示词落地之前就消耗了68K token。解法是prompt缓存,把成本压到约4%。这正是决定一个过夜循环到底是天才还是昂贵亏钱方式的、不起眼的经济账,而且它挂在"让agent自主磨"的RalphLoop模式上。
#9
@navalpodcast
https://x.com/navalpodcast/status/2058307106584072653
这份对Tom Blomfield《烧token,不烧人头》演讲的高管简报,是把"循环"当作整家公司运营模式(而不只是程序员工具)最清晰的表述。论点是:AI原生公司是一组递归的、自我改进的循环——感知世界、做决策、用工具、过质量门、从结果学习、再循环。那个"卧槽时刻"不是agent回答了一个问题,而是一个监控agent盯着每一次失败的查询、然后把系统的下一版发出去:找到bug、更新skill文件、开PR、review、合并、部署,全在你睡觉时完成。烧token而不是烧人头,把人留在判断重要的边缘地带。
https://x.com/navalpodcast/status/2058307106584072653
这份对Tom Blomfield《烧token,不烧人头》演讲的高管简报,是把"循环"当作整家公司运营模式(而不只是程序员工具)最清晰的表述。论点是:AI原生公司是一组递归的、自我改进的循环——感知世界、做决策、用工具、过质量门、从结果学习、再循环。那个"卧槽时刻"不是agent回答了一个问题,而是一个监控agent盯着每一次失败的查询、然后把系统的下一版发出去:找到bug、更新skill文件、开PR、review、合并、部署,全在你睡觉时完成。烧token而不是烧人头,把人留在判断重要的边缘地带。
#10
@mrru5s3ll
https://x.com/mrru5s3ll/status/2058081192671691237
Honey-Comb是对长agent循环真正瓶颈——上下文膨胀——最深思熟虑的一次进攻。它在任何东西进模型之前做纯CPU的内联上下文净化:每条进入循环的消息在1.5ms内被分类为CORE、DISTILL、COMPACT或DROP,再用确定性的正则提取器剥离,没有LLM摘要器、没有临时拍脑袋的压缩阈值。在一次10轮的编码agent会话里,它把一次514 token的文件读取压到5个、把60行的测试失败压到93个,整个会话从4062 token降到640,6.3倍压缩、抹掉84%的噪声。它对局限也很诚实——只对结构化工具输出管用、不适合自由聊天,标错还会丢数据,但它已经在生产环境跑、吞吐量是真实跑过基准的。
https://x.com/mrru5s3ll/status/2058081192671691237
Honey-Comb是对长agent循环真正瓶颈——上下文膨胀——最深思熟虑的一次进攻。它在任何东西进模型之前做纯CPU的内联上下文净化:每条进入循环的消息在1.5ms内被分类为CORE、DISTILL、COMPACT或DROP,再用确定性的正则提取器剥离,没有LLM摘要器、没有临时拍脑袋的压缩阈值。在一次10轮的编码agent会话里,它把一次514 token的文件读取压到5个、把60行的测试失败压到93个,整个会话从4062 token降到640,6.3倍压缩、抹掉84%的噪声。它对局限也很诚实——只对结构化工具输出管用、不适合自由聊天,标错还会丢数据,但它已经在生产环境跑、吞吐量是真实跑过基准的。
#11
@akshay_krips
https://x.com/akshay_krips/status/2058286616339460251
一个具体、窄的胜利:Codex写固件极好,头几次迭代就能到最大性能的约95%,而最后那1%可以靠足够多的autoresearch循环去搜出最优的构建和编译器配置。一条小推文,却是循环干那种人类永远没耐心干的"最后百分点搜索"的干净例子——而且是在配置搜索空间正好对autoresearch胃口的领域。
https://x.com/akshay_krips/status/2058286616339460251
一个具体、窄的胜利:Codex写固件极好,头几次迭代就能到最大性能的约95%,而最后那1%可以靠足够多的autoresearch循环去搜出最优的构建和编译器配置。一条小推文,却是循环干那种人类永远没耐心干的"最后百分点搜索"的干净例子——而且是在配置搜索空间正好对autoresearch胃口的领域。
#12
@HanifCarroll
https://x.com/HanifCarroll/status/2058174111436706117
他用agent干活的笔记读起来像一套在成熟的"生产环境跑循环"打法。他自己已经不再敲git或shell命令、全交给agent;做大型重构时,他让agent自主并行跑,并在开始前先定义好"完成"长什么样,这样就有了真正的停止条件。剩下的是循环卫生——宁要正确的长期形态也不要半吊子方案、文件保持在约1500行以内、超了就跑几轮重构、当LLM一直输出垃圾时就把结果交给第二个LLM清理而不是堆规则。他的工作已经转向定义什么叫"好"、并防止系统漂移。
https://x.com/HanifCarroll/status/2058174111436706117
他用agent干活的笔记读起来像一套在成熟的"生产环境跑循环"打法。他自己已经不再敲git或shell命令、全交给agent;做大型重构时,他让agent自主并行跑,并在开始前先定义好"完成"长什么样,这样就有了真正的停止条件。剩下的是循环卫生——宁要正确的长期形态也不要半吊子方案、文件保持在约1500行以内、超了就跑几轮重构、当LLM一直输出垃圾时就把结果交给第二个LLM清理而不是堆规则。他的工作已经转向定义什么叫"好"、并防止系统漂移。
#13
@sitin_dev
https://x.com/sitin_dev/status/2058070673155649817
对Karpathy的autoresearch为什么重要的一个干净解释:你给AI agent一个真实的、小规模的LLM训练任务,让它跑完整的研究循环——它编辑训练代码、在单张GPU上跑约5分钟的实验、检查验证指标,变好就留、没变好就回退。所以不再是只用AI写代码,而是agent真的在做迭代研究:提出、运行、评估、决定、重复。他的定位很对——这是agent在受控实验环境里成为初级研究员的早期一瞥。
https://x.com/sitin_dev/status/2058070673155649817
对Karpathy的autoresearch为什么重要的一个干净解释:你给AI agent一个真实的、小规模的LLM训练任务,让它跑完整的研究循环——它编辑训练代码、在单张GPU上跑约5分钟的实验、检查验证指标,变好就留、没变好就回退。所以不再是只用AI写代码,而是agent真的在做迭代研究:提出、运行、评估、决定、重复。他的定位很对——这是agent在受控实验环境里成为初级研究员的早期一瞥。
📡 生态产品雷达
生态产品雷达
evo:基于Karpathy思路的开源autoresearch/优化平台,约6000次安装、700+星,并行树搜索agent加行为gate,可跑在AWS/Azure/Modal/e2b。本周最出圈的autoresearch工具。
Karpathy's autoresearch:那个被当成起点的参考repo和范式(改代码、跑5分钟GPU实验、按指标留或回退),本周几乎每个循环项目都在分叉它、改成skill、或引用它当起点。
Managed Agents(谷歌+Anthropic):agent循环搬到服务端、按token计费、带沙箱harness,被反复点名为"把harness从框架选择变成了模型功能"。
Claude Code / Codex:大家真正在上面跑循环的两个harness——Claude Code用于自我改进skill和过夜循环,Codex被分叉用于auto-research和固件配置搜索。
Hermes Agent:自我改进循环的本地优先开源"身体",出现在Polymarket交易循环和持久自我改进工作区的执行层里。
evo:基于Karpathy思路的开源autoresearch/优化平台,约6000次安装、700+星,并行树搜索agent加行为gate,可跑在AWS/Azure/Modal/e2b。本周最出圈的autoresearch工具。
Karpathy's autoresearch:那个被当成起点的参考repo和范式(改代码、跑5分钟GPU实验、按指标留或回退),本周几乎每个循环项目都在分叉它、改成skill、或引用它当起点。
Managed Agents(谷歌+Anthropic):agent循环搬到服务端、按token计费、带沙箱harness,被反复点名为"把harness从框架选择变成了模型功能"。
Claude Code / Codex:大家真正在上面跑循环的两个harness——Claude Code用于自我改进skill和过夜循环,Codex被分叉用于auto-research和固件配置搜索。
Hermes Agent:自我改进循环的本地优先开源"身体",出现在Polymarket交易循环和持久自我改进工作区的执行层里。
评论