Loop 日报: 2026年04月19日
autoresearch 这周不再是 demo 了。最清晰的信号:一盘国际象棋引擎自己从"专家级"一路打到 2718 ELO——排进全球前 50 位人类棋手——靠的是 70 轮自主实验,第一天之后没有任何人类碰过代码。两篇论文几天之内先后落地(TurboQuant 推理压缩 + 国际象棋 autoresearch 成果),从两个方向压到同一个硬件约束上。同期 pi-autoresearch 周一起步、周二开源、周四 5000 stars。Shopify 在用,Farcast 在 GTM 上用,DE Shaw 刚被一个只有 $5 VPS 的业余玩家正面出货。今天的 feed 显示模式已经稳定:"一台笔记本,一个过夜 run,被验证的改进 commit 进 git"——现在这是任何"有可测指标"场景的新起点。
#1
@innoscoutpro
https://x.com/innoscoutpro/status/2045066518245863707
一盘国际象棋引擎自己从"专家级"升到 2718 ELO——排进全球前 50 位人类棋手——靠 70 轮自主实验,第一天之后人类没碰代码。同期 Google 放出 TurboQuant,一篇推理压缩论文,让一个 27B 稠密模型在同一硬件上跑快 3 倍,3-bit 精度下压缩 4.9 倍。旋转后 kurtosis 从 900 降到 2.9。独立复现已确认。他的定位是:"可部署 agent 的鸿沟"终于塌了——autoresearch 是那个"找人类漏掉的改进"的机制,TurboQuant 是那个"让这些改进便宜到可规模化跑"的使能器。两者都是被同一个硬件瓶颈硬生生逼出来的。
https://x.com/innoscoutpro/status/2045066518245863707
一盘国际象棋引擎自己从"专家级"升到 2718 ELO——排进全球前 50 位人类棋手——靠 70 轮自主实验,第一天之后人类没碰代码。同期 Google 放出 TurboQuant,一篇推理压缩论文,让一个 27B 稠密模型在同一硬件上跑快 3 倍,3-bit 精度下压缩 4.9 倍。旋转后 kurtosis 从 900 降到 2.9。独立复现已确认。他的定位是:"可部署 agent 的鸿沟"终于塌了——autoresearch 是那个"找人类漏掉的改进"的机制,TurboQuant 是那个"让这些改进便宜到可规模化跑"的使能器。两者都是被同一个硬件瓶颈硬生生逼出来的。
#2
@mustafa01ali
https://x.com/mustafa01ali/status/2045188957579653193
把 autoresearch 指向 Shopify 的 mobile 主应用。每次 CI 快 5 分钟,单元测试快 34%,冷启动快 300ms,某关键屏幕的 re-render 减少 95%。全是 agent 自己跑出来的。人手优化根本来不及。数字之外,更重要的是模式:把 autoresearch loop 接到一条有真实指标的 CI/build 管线上,它会不停挖出那些有复利效应的优化——这些是资深工程师平时根本没档期去追的。
https://x.com/mustafa01ali/status/2045188957579653193
把 autoresearch 指向 Shopify 的 mobile 主应用。每次 CI 快 5 分钟,单元测试快 34%,冷启动快 300ms,某关键屏幕的 re-render 减少 95%。全是 agent 自己跑出来的。人手优化根本来不及。数字之外,更重要的是模式:把 autoresearch loop 接到一条有真实指标的 CI/build 管线上,它会不停挖出那些有复利效应的优化——这些是资深工程师平时根本没档期去追的。
#3
@davebcn87
https://x.com/davebcn87/status/2045109196887130408
pi-autoresearch 周一起步、周二开源、周四 5000+ stars。Shopify 在用它跑单元测试(300 倍加速)、React 组件、CI 构建(减少 65%)。Dave 另一条推直接把整个范式跃迁说透了:"AI agent 以前是像我们一样写代码,只不过更快。pi-autoresearch 做的是我们从来不会开始做的那些事。没人会规划 3 个月去把 build time 缩 30%——这事有价值,但无聊、花钱,所以永远不会真的做。agent 不在乎。它不会无聊。它在你睡觉时跑。"解锁的不是速度,是"愿意去做那些 ROI 为正但永远不会被排进日程的事"的意愿。
https://x.com/davebcn87/status/2045109196887130408
pi-autoresearch 周一起步、周二开源、周四 5000+ stars。Shopify 在用它跑单元测试(300 倍加速)、React 组件、CI 构建(减少 65%)。Dave 另一条推直接把整个范式跃迁说透了:"AI agent 以前是像我们一样写代码,只不过更快。pi-autoresearch 做的是我们从来不会开始做的那些事。没人会规划 3 个月去把 build time 缩 30%——这事有价值,但无聊、花钱,所以永远不会真的做。agent 不在乎。它不会无聊。它在你睡觉时跑。"解锁的不是速度,是"愿意去做那些 ROI 为正但永远不会被排进日程的事"的意愿。
#4
@shobitfarcast
https://x.com/shobitfarcast/status/2045117573373517994
Farcast 用 autoresearch 跑 GTM——不是 ML——而且他们把这件事说成是他们做过的最大一次"AI 协作方式"重构。Karpathy 设计 autoresearch 的出发点是过夜在单 GPU 上跑 ML 实验:描述要探索什么,把 agent 指向 repo,醒来拿到 100+ 条被验证过的实验,以及一份完整的 git history。Farcast 把同一个 loop 挪到了 ICP 验证上。描述 ICP 假设,让 agent 对着真实数据迭代,保留那些产出更精准的,杀掉那些产出泛泛之言的。结果:GTM 方案的输出质量提升 80%——不是快了 80%,是"具体、有用"程度提升了 80%。区别就在于"在 Twitter 和 LinkedIn 上发"和"这三个 Slack 社群里你这个 ICP 每周都在提问,下面是每个社群的可用话术"之间。
https://x.com/shobitfarcast/status/2045117573373517994
Farcast 用 autoresearch 跑 GTM——不是 ML——而且他们把这件事说成是他们做过的最大一次"AI 协作方式"重构。Karpathy 设计 autoresearch 的出发点是过夜在单 GPU 上跑 ML 实验:描述要探索什么,把 agent 指向 repo,醒来拿到 100+ 条被验证过的实验,以及一份完整的 git history。Farcast 把同一个 loop 挪到了 ICP 验证上。描述 ICP 假设,让 agent 对着真实数据迭代,保留那些产出更精准的,杀掉那些产出泛泛之言的。结果:GTM 方案的输出质量提升 80%——不是快了 80%,是"具体、有用"程度提升了 80%。区别就在于"在 Twitter 和 LinkedIn 上发"和"这三个 Slack 社群里你这个 ICP 每周都在提问,下面是每个社群的可用话术"之间。
#5
@JustinPBarnett
https://x.com/JustinPBarnett/status/2045105132400951609
跑了一整晚的 autoresearch loop——458 轮——用 Opus 4.7 xhigh。用掉每周配额的 12%。这是当下 Max 订阅下"过夜 agent 工作"的诚实经济学:一次无监督过夜大概吃掉一天半的周配额。值得当作一个天花板参考——因为大部分"在家 autoresearch"的帖子都没讲清楚到底烧掉多少算力。
https://x.com/JustinPBarnett/status/2045105132400951609
跑了一整晚的 autoresearch loop——458 轮——用 Opus 4.7 xhigh。用掉每周配额的 12%。这是当下 Max 订阅下"过夜 agent 工作"的诚实经济学:一次无监督过夜大概吃掉一天半的周配额。值得当作一个天花板参考——因为大部分"在家 autoresearch"的帖子都没讲清楚到底烧掉多少算力。
#6
@JanKoritak
https://x.com/JanKoritak/status/2045057235512856681
客户项目,一个坏掉的 voice agent,48 小时 deadline。用 Karpathy 的 Auto-Research 模式当 debug 工具——描述失败行为,让 agent 循环跑假设、验证、commit、下一个。"能用。"有用的点不在结果本身——而是把 autoresearch 压进一个硬 deadline 的案子里,这种采用信号 benchmark 根本看不到。
https://x.com/JanKoritak/status/2045057235512856681
客户项目,一个坏掉的 voice agent,48 小时 deadline。用 Karpathy 的 Auto-Research 模式当 debug 工具——描述失败行为,让 agent 循环跑假设、验证、commit、下一个。"能用。"有用的点不在结果本身——而是把 autoresearch 压进一个硬 deadline 的案子里,这种采用信号 benchmark 根本看不到。
#7
@ks_kulk
https://x.com/ks_kulk/status/2044998047793594701
一个具体又吓人的应用场景:用 autoresearch 去优化用于破解 ECDSA 的量子电路。Google 已发的成果里引用了三个算法优化——公钥公开前的 attack priming、Litinski 2023 的摊销技巧、Chevignard 2026 的宽度优化。一个带明确目标的 autoresearch agent 只要一条干净的 prompt("给这个量子电路寻找最小化 logical qubit 和 Toffoli gate 的策略,以 Google 的结果为起点,打败他们的已公开数字")就是一条通向"更多工程优化"的可行路径。这直接把整个品类的天花板问题摆出来——如果 autoresearch 能从密码破解电路里再挤出 10%,整个威胁时间线就变了。
https://x.com/ks_kulk/status/2044998047793594701
一个具体又吓人的应用场景:用 autoresearch 去优化用于破解 ECDSA 的量子电路。Google 已发的成果里引用了三个算法优化——公钥公开前的 attack priming、Litinski 2023 的摊销技巧、Chevignard 2026 的宽度优化。一个带明确目标的 autoresearch agent 只要一条干净的 prompt("给这个量子电路寻找最小化 logical qubit 和 Toffoli gate 的策略,以 Google 的结果为起点,打败他们的已公开数字")就是一条通向"更多工程优化"的可行路径。这直接把整个品类的天花板问题摆出来——如果 autoresearch 能从密码破解电路里再挤出 10%,整个威胁时间线就变了。
#8
@eliautobot
https://x.com/eliautobot/status/2045233314177720799
用 Karpathy 的 autoresearch 套路给自己在造的一个 agent 世界做出了一个自主移动系统。把模式一套,3 小时左右就跑通了。有用的点不是游戏本身——是"从 idea 到一个能跑的自主行为 3 小时",在任何"能拆成可测目标 + 可编辑文件"的场景里,现在都是新的起步线。
https://x.com/eliautobot/status/2045233314177720799
用 Karpathy 的 autoresearch 套路给自己在造的一个 agent 世界做出了一个自主移动系统。把模式一套,3 小时左右就跑通了。有用的点不是游戏本身——是"从 idea 到一个能跑的自主行为 3 小时",在任何"能拆成可测目标 + 可编辑文件"的场景里,现在都是新的起步线。
#9
@ben_burtenshaw
https://x.com/ben_burtenshaw/status/2045085809800356112
Karpathy 风格的多 agent autoresearch 上手教程——用开源模型跑,兼容 Codex、Claude、OpenCode。5-agent 配置,工具和权限各自 scoped:researcher 在 HF papers 上搜论文、提出假设;planner 维护实验计划和日志;worker 更新脚本、在 GPU 上起 HF jobs;reporter 监控 jobs、把 metrics 推到 Trackio dashboard。跑了 4 小时、32 个 jobs 完成、baseline 有小幅提升。值得当作"真的能跑"的多 agent autoresearch 模板来看,不是那种只在 slide 上画的示意图。
https://x.com/ben_burtenshaw/status/2045085809800356112
Karpathy 风格的多 agent autoresearch 上手教程——用开源模型跑,兼容 Codex、Claude、OpenCode。5-agent 配置,工具和权限各自 scoped:researcher 在 HF papers 上搜论文、提出假设;planner 维护实验计划和日志;worker 更新脚本、在 GPU 上起 HF jobs;reporter 监控 jobs、把 metrics 推到 Trackio dashboard。跑了 4 小时、32 个 jobs 完成、baseline 有小幅提升。值得当作"真的能跑"的多 agent autoresearch 模板来看,不是那种只在 slide 上画的示意图。
#10
@bibhashroykol
https://x.com/bibhashroykol/status/2045153809048215733
来自生产环境的警示录:4 个 LangChain agent,其中两个漂进了一个递归循环——Analyzer 一直在发澄清请求,Verifier 一直在回指令。跑了 11 天。$47,000 的 API 账单。团队一开始以为是用户增长。按每步 85% 准确率算,10 步工作流整体成功率是 19.7%——Lusser's law 相乘,85% × 20 步就是 4%。解法是给每个 agent loop 加三条硬线:max 迭代次数、max 花费、max 运行时间。一行配置加个 $50 上限就能几分钟内掐掉这个 $47K loop。
https://x.com/bibhashroykol/status/2045153809048215733
来自生产环境的警示录:4 个 LangChain agent,其中两个漂进了一个递归循环——Analyzer 一直在发澄清请求,Verifier 一直在回指令。跑了 11 天。$47,000 的 API 账单。团队一开始以为是用户增长。按每步 85% 准确率算,10 步工作流整体成功率是 19.7%——Lusser's law 相乘,85% × 20 步就是 4%。解法是给每个 agent loop 加三条硬线:max 迭代次数、max 花费、max 运行时间。一行配置加个 $50 上限就能几分钟内掐掉这个 $47K loop。
#11
@bnafOg
https://x.com/bnafOg/status/2045049548800766052
Opus 4.7 把 task_budget_tokens 做成 public beta。Claude 现在能拿到整个 agentic loop 的倒计时——思考 + tool call + 输出——这样模型能自己判断什么时候停什么时候继续探索。不设这个值的话,一个规划步骤吃掉整个预算就会导致长 agent run 悄悄崩掉。他同一条推还指出 Gemini 3.1 Pro 把 extended thinking budget 分给整个 agentic loop 里的所有子任务共享,所以一个硬规划步骤就能吃掉整个 run。大部分开发者都没设过 task_budget_tokens,但这东西对多步可靠性的效果是立竿见影的。
https://x.com/bnafOg/status/2045049548800766052
Opus 4.7 把 task_budget_tokens 做成 public beta。Claude 现在能拿到整个 agentic loop 的倒计时——思考 + tool call + 输出——这样模型能自己判断什么时候停什么时候继续探索。不设这个值的话,一个规划步骤吃掉整个预算就会导致长 agent run 悄悄崩掉。他同一条推还指出 Gemini 3.1 Pro 把 extended thinking budget 分给整个 agentic loop 里的所有子任务共享,所以一个硬规划步骤就能吃掉整个 run。大部分开发者都没设过 task_budget_tokens,但这东西对多步可靠性的效果是立竿见影的。
#12
@ybkim95_ai
https://x.com/ybkim95_ai/status/2044962799559073934
CoDaS——从穿戴式传感器数据里做生物标志物发现的 AI Co-Data-Scientist。多 agent loop,从大规模穿戴数据集生成假设、统计和 ML 验证、对抗式评审(adversarial critique)排除伪发现、基于文献的机制合理性推理、人类参与的报告 review。3 个队列(N = 9,279)。识别出 66 个通过严格验证协议的候选数字生物标志物,在独立抑郁症数据集之间找到一致的昼夜节律不稳定信号,复现出已知代谢标志物如 TG/HDL 和 CRP。Google Research、DeepMind、MIT 合作。这篇论文是第一次在公开场合、在规模化层面证明 autoresearch 风格的 agent loop 能做出有临床意义的生物标志物发现。
https://x.com/ybkim95_ai/status/2044962799559073934
CoDaS——从穿戴式传感器数据里做生物标志物发现的 AI Co-Data-Scientist。多 agent loop,从大规模穿戴数据集生成假设、统计和 ML 验证、对抗式评审(adversarial critique)排除伪发现、基于文献的机制合理性推理、人类参与的报告 review。3 个队列(N = 9,279)。识别出 66 个通过严格验证协议的候选数字生物标志物,在独立抑郁症数据集之间找到一致的昼夜节律不稳定信号,复现出已知代谢标志物如 TG/HDL 和 CRP。Google Research、DeepMind、MIT 合作。这篇论文是第一次在公开场合、在规模化层面证明 autoresearch 风格的 agent loop 能做出有临床意义的生物标志物发现。
#13
@Forsy_AI
https://x.com/Forsy_AI/status/2045080521810559373
Browserbase 用一个叫 "bb" 的通用 agent 替换掉了内部一打机器人,并把架构开源了。住在 Slack 里、写 PR、查 Snowflake、排查生产 session。一个 agent loop,skills 按需加载,credentials 永不暴露给 sandbox,feature request 100% 覆盖,人工 0 成本。这是本周 Anthropic、OpenAI、Cloudflare、Browserbase 四家分别从平台端和用户端独立推出的同一个收敛点——单 agent loop、lazy-load 的 skill、受控权限、隔离 sandbox。供应侧和使用侧同时收敛,是这套架构"就是对的那个"最强的信号。
https://x.com/Forsy_AI/status/2045080521810559373
Browserbase 用一个叫 "bb" 的通用 agent 替换掉了内部一打机器人,并把架构开源了。住在 Slack 里、写 PR、查 Snowflake、排查生产 session。一个 agent loop,skills 按需加载,credentials 永不暴露给 sandbox,feature request 100% 覆盖,人工 0 成本。这是本周 Anthropic、OpenAI、Cloudflare、Browserbase 四家分别从平台端和用户端独立推出的同一个收敛点——单 agent loop、lazy-load 的 skill、受控权限、隔离 sandbox。供应侧和使用侧同时收敛,是这套架构"就是对的那个"最强的信号。
#14
@HerselmanI
https://x.com/HerselmanI/status/2045106843249172925
短但值得点进去看。搭了一个自改进 agent loop 去解决一个真实的业务问题,不是 benchmark 任务。比 Karpathy 原版 ML run 技术上朴素得多,但作为"同一个模式在研究之外也能跑"的真实验证,价值更大。下面的评论区还有一些关于"面对乱糟糟的生产数据时这个 loop 会崩在哪"的来回。
https://x.com/HerselmanI/status/2045106843249172925
短但值得点进去看。搭了一个自改进 agent loop 去解决一个真实的业务问题,不是 benchmark 任务。比 Karpathy 原版 ML run 技术上朴素得多,但作为"同一个模式在研究之外也能跑"的真实验证,价值更大。下面的评论区还有一些关于"面对乱糟糟的生产数据时这个 loop 会崩在哪"的来回。
#15
@NoDataSold
https://x.com/NoDataSold/status/2044930597424902431
搭了一个 Hermes 内两个 agent 之间的受控 critique loop——Max(执行者、验证者、强制者)和 Nova(过滤者、挑战者、品味层)。共享 context,但人格和行为分开。关键动作:把强制逻辑挪进 tool dispatch 路径,非法动作被机械地拦截;STRICT 模式下有 escape hatch 和时长上限;pattern memory 升级后追踪意图指纹、失败类型、修复方式、频次、最近一次、成功率;非对称奖励让无效 pattern 更快掉权重;Nova 和 Max 各自有持久化 SOUL rules;多 agent loop 里保持"速度/品味 vs 正确性/证明"之间的结构性张力;灰度升级用 Nova 先跑,再上 Max。是目前公开文档里最细致的持久身份多 agent 系统架构之一。
https://x.com/NoDataSold/status/2044930597424902431
搭了一个 Hermes 内两个 agent 之间的受控 critique loop——Max(执行者、验证者、强制者)和 Nova(过滤者、挑战者、品味层)。共享 context,但人格和行为分开。关键动作:把强制逻辑挪进 tool dispatch 路径,非法动作被机械地拦截;STRICT 模式下有 escape hatch 和时长上限;pattern memory 升级后追踪意图指纹、失败类型、修复方式、频次、最近一次、成功率;非对称奖励让无效 pattern 更快掉权重;Nova 和 Max 各自有持久化 SOUL rules;多 agent loop 里保持"速度/品味 vs 正确性/证明"之间的结构性张力;灰度升级用 Nova 先跑,再上 Max。是目前公开文档里最细致的持久身份多 agent 系统架构之一。
#16
@samhogan
https://x.com/samhogan/status/2045174875921481979
Catalyst——一个把生产 trace 转成小型、自改进、frontier 质量模型的 LLM 微调引擎,模型归用户所有。内部模型 Schematron 就是在这上面训和部署的。有意思在于它精准打到市场中段——那些有真实生产 trace 但没基础设施把这些 trace 变成训练信号的团队。如果说得通,这是把 autoresearch 应用到模型权重本身,而不是只应用到代码上。
https://x.com/samhogan/status/2045174875921481979
Catalyst——一个把生产 trace 转成小型、自改进、frontier 质量模型的 LLM 微调引擎,模型归用户所有。内部模型 Schematron 就是在这上面训和部署的。有意思在于它精准打到市场中段——那些有真实生产 trace 但没基础设施把这些 trace 变成训练信号的团队。如果说得通,这是把 autoresearch 应用到模型权重本身,而不是只应用到代码上。
#17
@omarsar0
https://x.com/omarsar0/status/2045241905227915498
Autogenesis——一个自进化 agent 协议:agent 自己识别能力缺口,生成候选改进,通过测试验证,把能用的整合回自己的运行框架。不需要重训,不需要人类打补丁——就是一个"评估、提议、验证、整合"的持续 loop。他把它放在 Meta-Harness 和 Darwin Gödel Machine 那条线里,说这是迄今在"持续自改进"这个问题上最清晰的协议层尝试之一。建议读原文。这些设计会定义将来"静态 agent 会很快老化"这句话的真正含义。
https://x.com/omarsar0/status/2045241905227915498
Autogenesis——一个自进化 agent 协议:agent 自己识别能力缺口,生成候选改进,通过测试验证,把能用的整合回自己的运行框架。不需要重训,不需要人类打补丁——就是一个"评估、提议、验证、整合"的持续 loop。他把它放在 Meta-Harness 和 Darwin Gödel Machine 那条线里,说这是迄今在"持续自改进"这个问题上最清晰的协议层尝试之一。建议读原文。这些设计会定义将来"静态 agent 会很快老化"这句话的真正含义。
#18
@Underfox3
https://x.com/Underfox3/status/2045277944264749147
Nvidia 研究员演示了一个 agentic LLM 编程框架,自主地演化一个数百万行的 EDA 工具,范围覆盖整个 ABC 逻辑综合系统。自改进代码生成被应用到生产级工具——不是玩具 benchmark。如果这种结果能站得住脚,那同一个 agentic loop 模式不仅在绿地项目上能跑,连那些 20 年历史、原本被认为"改不动不划算"的代码库也能跑。
https://x.com/Underfox3/status/2045277944264749147
Nvidia 研究员演示了一个 agentic LLM 编程框架,自主地演化一个数百万行的 EDA 工具,范围覆盖整个 ABC 逻辑综合系统。自改进代码生成被应用到生产级工具——不是玩具 benchmark。如果这种结果能站得住脚,那同一个 agentic loop 模式不仅在绿地项目上能跑,连那些 20 年历史、原本被认为"改不动不划算"的代码库也能跑。
#19
@VictorATHER
https://x.com/VictorATHER/status/2045217042152718346
一个概念提案,带具体参考。一个闭环 AI 系统,模拟市场对 GTM 策略的反应,跑迭代式 A/B/n 实验,在真实部署前输出最优策略。参考仓库是 Karpathy 的 Autoresearch 和郭航江的 Mirofish。正好坐在"GTM × autoresearch"的交叉点——如果上面 Farcast 的 80% 结果是可复制的,这就是下一波 autoresearch 风格部署要落到的地方。
https://x.com/VictorATHER/status/2045217042152718346
一个概念提案,带具体参考。一个闭环 AI 系统,模拟市场对 GTM 策略的反应,跑迭代式 A/B/n 实验,在真实部署前输出最优策略。参考仓库是 Karpathy 的 Autoresearch 和郭航江的 Mirofish。正好坐在"GTM × autoresearch"的交叉点——如果上面 Farcast 的 80% 结果是可复制的,这就是下一波 autoresearch 风格部署要落到的地方。
#20
@duin_dev
https://x.com/duin_dev/status/2045037721190608992
单开发者实况:只实现了一个极简的 write/recall memory tool,就把一个自改进 agent 搭起来了。agent 自己找到了自己的 memory,开始用它来自我改进。小轶事,但戳破了那些花哨论文偶尔模糊掉的那一点——自改进模式只要一个一下午就能写完的 memory 原语就能运转。
https://x.com/duin_dev/status/2045037721190608992
单开发者实况:只实现了一个极简的 write/recall memory tool,就把一个自改进 agent 搭起来了。agent 自己找到了自己的 memory,开始用它来自我改进。小轶事,但戳破了那些花哨论文偶尔模糊掉的那一点——自改进模式只要一个一下午就能写完的 memory 原语就能运转。
📡 生态产品雷达
生态产品雷达
pi-autoresearch: 当下的旗舰。给 "pi" AI 编程 agent 写的开源扩展,在终端里跑。给它一个目标(比如"把测试跑快"),它就进入一个无休止实验 loop——改代码、跑 benchmark、赢的留下、输的回退,所有过程写进 autoresearch.jsonl。周一起步,周二开源,周四 5K+ stars。Shopify 在用它跑单元测试、React 组件、CI 构建。
Karpathy's Autoresearch(原始模式): 本篇里所有东西的精神源头。过夜在单 GPU 上跑 ML 实验:描述要探索什么,把 AI agent 指向 repo,醒来拿到 100+ 条被验证过的实验和完整 git history。agent 只 commit 改进。这个模式能泛化到任何"有可编辑文件 + 有可测指标"的场景。
Hermes Agent (Nous Research): 自改进 AI agent,可自托管,本地或 VPS 都能跑,每大约 15 次 tool call 自己写一条 skill,持久化 memory(MEMORY.md + USER.md + SQLite)。per-model tool-call 解析器让它成为当下本地模型最合适的 harness。Ollama 0.21 原生支持 Hermes。
Trackio / HF Jobs: 藏在 ben_burtenshaw 那套多 agent autoresearch 底下的监控层。reporter agent 把 job 事件和 metric 推到 Trackio dashboard,worker 在 GPU 上起 HF jobs。值得关注,因为它是第一次有人把"autoresearch 风格 loop 的可观测性"这件事标准化下来。
Autogenesis / Meta-Harness / Darwin Gödel Machine: 当下被反复提到的三个"协议层持续自改进"的参考点。Autogenesis(刚放出来)是最干净的协议尝试——评估、提议、验证、整合。如果你在想从单 loop autoresearch 往"能重写自己的 loop 的系统"走,这些是该读的。
task_budget_tokens: Opus 4.7 public beta 的一个参数,给模型一个覆盖整个 agentic loop 的 token 倒计时。多步任务里的 context collapse 大幅减少。被严重低估——大部分开发者既没设 task_budget_tokens 也没用 xhigh effort,虽然这两个对 agent 多步可靠性的影响是立竿见影的。
pi-autoresearch: 当下的旗舰。给 "pi" AI 编程 agent 写的开源扩展,在终端里跑。给它一个目标(比如"把测试跑快"),它就进入一个无休止实验 loop——改代码、跑 benchmark、赢的留下、输的回退,所有过程写进 autoresearch.jsonl。周一起步,周二开源,周四 5K+ stars。Shopify 在用它跑单元测试、React 组件、CI 构建。
Karpathy's Autoresearch(原始模式): 本篇里所有东西的精神源头。过夜在单 GPU 上跑 ML 实验:描述要探索什么,把 AI agent 指向 repo,醒来拿到 100+ 条被验证过的实验和完整 git history。agent 只 commit 改进。这个模式能泛化到任何"有可编辑文件 + 有可测指标"的场景。
Hermes Agent (Nous Research): 自改进 AI agent,可自托管,本地或 VPS 都能跑,每大约 15 次 tool call 自己写一条 skill,持久化 memory(MEMORY.md + USER.md + SQLite)。per-model tool-call 解析器让它成为当下本地模型最合适的 harness。Ollama 0.21 原生支持 Hermes。
Trackio / HF Jobs: 藏在 ben_burtenshaw 那套多 agent autoresearch 底下的监控层。reporter agent 把 job 事件和 metric 推到 Trackio dashboard,worker 在 GPU 上起 HF jobs。值得关注,因为它是第一次有人把"autoresearch 风格 loop 的可观测性"这件事标准化下来。
Autogenesis / Meta-Harness / Darwin Gödel Machine: 当下被反复提到的三个"协议层持续自改进"的参考点。Autogenesis(刚放出来)是最干净的协议尝试——评估、提议、验证、整合。如果你在想从单 loop autoresearch 往"能重写自己的 loop 的系统"走,这些是该读的。
task_budget_tokens: Opus 4.7 public beta 的一个参数,给模型一个覆盖整个 agentic loop 的 token 倒计时。多步任务里的 context collapse 大幅减少。被严重低估——大部分开发者既没设 task_budget_tokens 也没用 xhigh effort,虽然这两个对 agent 多步可靠性的影响是立竿见影的。
评论