2026年5月6日loop

Loop 日报: 2026-05-07

今天 autoresearch 圈不再发 demo 了，开始发凭证。一个交易员让 agent 在三分钟内跑 53 个实验、用 91 天真实 Hyperliquid 数据验证，Sharpe 从 -1.55 飙到 5.67。一家医疗影像创业公司两周烧掉 500 美金 API 额度，把一个手工调不动的多维 pipeline 推过去了。一个研究实验室把 autoresearch 原生塞进 TransformerLab，原本要几个月的 ML 工作现在过夜跑完。规律是一致的：真实数字、真实 pipeline、真实金钱。下面是 5 月 5 日 Loop 主题信号最强的几条，按"循环本身做得多严谨"排序。

💡#1

@AndrewK404
https://x.com/AndrewK404/status/2051651106539769908
今天最工程化的 autoresearch v2。Karpathy 那版 autoresearch 是个不错的 PoC，但难点不是不让 agent 改代码，难点是怎么保持一个长跑优化诚实——记忆、异步实验、证伪条件、什么时候停止调超参往上跳一层抽象。Andrew 围绕五个原语重写：CONFIG.md 当冻结合约、MEMORY.md 当实时状态、LESSONS.md 只在多次胜出后才写、异步实验和研究循环、每个假设都要有数值证伪、搜索停滞时分级升级。这是第一份把 autoresearch 当控制系统问题而不是 vibe 来处理的文档。

💡#2

@dibwuru
https://x.com/dibwuru/status/2051515255621099941
他给 Forge agent 一个任务："跑交易实验，找出有效的"。三分钟跑了 53 个实验，用 91 天真实 Hyperliquid 数据验证最佳的一个。手动 baseline：Sharpe -1.55，胜率 19%，最大回撤 72%。优化后：Sharpe 5.67，胜率 81%，73 笔交易，最大回撤 35.8%。策略是 ETH 4H 的布林带回归。最大的发现不是参数更好——是市场错了。同一逻辑在 ETH/4H 上吊打 HYPE 和 SOL。成本：0 美元（公开 Hyperliquid API），只用 CPU，三分钟。灵感来自 Karpathy 的 autoresearch。这是今天最干净的"让机器搜策略空间"的演示。

💡#3

@SinaShahandeh
https://x.com/SinaShahandeh/status/2051748925493703159
医疗器械软件公司在多维医学影像处理 pipeline 上跑 auto-research 风格的优化。两周烧 500 美元的 API 额度，他说想烧更多也行。值得记的备注：连 GPT-5.5 都还在 hypothesis generation 这一步挣扎。他正在准备一个 benchmark，已投 AI Engineer 大会。翻译过来：科学的 hill-climb 类问题在算力维度已经便宜到不像话了，但瓶颈正从算力迁移到 agent 自己想出值得做的实验的能力。

💡#4

@aliasaria
https://x.com/aliasaria/status/2051743701647368615
他把 Karpathy 的 autoresearch 功能原生做进了 TransformerLab。他说这种 harness 应该是未来所有 ML 研究工作的一部分。原本要几个月的活，现在他睡觉的时候自动跑完了。一句话埋在一个小推里，但这是关于 ML 研究下一步去向最接近论纲的表述：研究即过夜批处理。

💡#5

@4xiom_
https://x.com/4xiom_/status/2051725243354608089
"目前在做水文/土木工程领域的自动化 ML 研究。我甚至不是工程师。多谢给的 10x token，我用 autoresearch 风格的工具发现，过夜跑了一堆实验。" 一个非工程师在土木工程问题上跑 ML 研究，靠的就是 overnight agent loop。下游影响：所有有反馈循环、有非工程师懂领域的应用科学，都刚刚拥有了自己的研究部门。

💡#6

@Fr0oZi
https://x.com/Fr0oZi/status/2051695917552537841
Sentient 的 EvoSkill——Apache 2.0，能接进 Claude Code、Codex CLI、OpenCode、OpenHands、Goose。输入是一份带 ground truth 的 CSV、一个任务描述、一个 coding agent。它会同时变异 skill 和 prompt，在 held-out 数据上测试，留下有效的，自动跑直到分数停滞。关键数字：OfficeQA 从 60.6% 到 68.1%（SOTA），SealQA 从 26.6% 到 38.7%，零人类介入。在 Claude Code 上演化出来的 skill 能转移到 Gemini、Qwen、Kimi、GPT——跨模型加跨任务的迁移同时成立。这是第一个一上来就支持五个主流 harness 的 prompt-and-skill 优化器。

💡#7

@RoundtableSpace
https://x.com/RoundtableSpace/status/2051658627870597498
Atlas：25+ 个自主 agent 每个交易日在 4 层架构里互相辩论。每个建议都会跟真实结果打分。最弱那个 agent 的 prompt 会被重写。如果 Sharpe 改善，提交保留；不改善就 revert。灵感来自 autoresearch、reflexivity 和 swarm dynamics，但直接对准金融市场。一台 20 美金/月的 VM 替代了重型训练循环，agent 从市场范式切换、知识缺口、新策略孵化里持续学习。已经在用真实资金跑。这是一个策略种群上"演化压力"实际跑起来的样子。

💡#8

@chenzeling4
https://x.com/chenzeling4/status/2051593879829270794
pi-autoresearch 现在 6,397 颗星。给 pi AI agent 做的自主实验循环：试一个想法，benchmark，留下改进，回退退步，永远循环下去。可以用在测试速度、bundle 大小、构建时间上。作者 davebcn87。同一颗 Karpathy 种子已经在水文、金融、医学影像、pi agent 自身上长出领域专属的分叉，证明这个 pattern 一旦团队认真投入就组合得很干净。

💡#9

@aparjey + @versalabsai（联合的攻防游戏）
https://x.com/aparjey/status/2051778475783328071
现场版 "agent 被破，重写防御 prompt，重部署" 循环，29 次尝试之后才有人破开。这 29 次的费用资助了 treasury，treasury 再去支付下一轮。Versalabsai 确认这个玩法已经常见到他们直接发指引让用户加固自己的防御 prompt。对抗式 autoresearch 正在变成一个真正的子流派——循环不在实验和 benchmark 之间，而是在攻击者、防御 prompt 和链上经济之间。

💡#10

@alokbishoyi97
https://x.com/alokbishoyi97/status/2051550087768404328
开源了一个 autoresearch orchestrator，跑并行 agent 加树搜索。后续那条更关键：他用 RLM 风格的记忆（存假设、trace、log），每次 ideation 时都喂回 orchestrator。这正面回应了 soubhik_deb 指出的更难那一面——autoresearch 里的记忆不是"压缩然后取用"，是"默认导航 idea space"。第一个开源对这个 pattern 的尝试。

💡#11

@soubhik_deb
https://x.com/soubhik_deb/status/2051787501329879431
我看过对 coding-agent 记忆和 autoresearch 记忆区别讲得最清楚的一段话。Coding agent 的长期记忆关心压缩，便于需要时把关键点取出来。Autoresearch 记忆关心默认导航——过去的想法和过去实现的诊断必须每次 ideation 时都被引用，因为它们决定每一次 exploration vs exploitation 的判断。这个差别是大多数团队还没起名字的架构分叉。

💡#12

@johngaaltt
https://x.com/johngaaltt/status/2051537625501294985
他把 agent loop 切到 DeepSeek V4 Pro，走 Anthropic 兼容 endpoint，每天的推理成本暴跌。GitHub 上的 DeepClaude 在 HN 拿了 476 分，作为开源 wrapper 干同一件事。在他 80% 的用法（脚手架、集成代码、模块重构）里，输出和 Opus 看不出区别。剩下 20% Claude 还领先的部分（大代码库的模糊架构推理）他手动路由到 Opus。DeepSeek V4 Pro 1.6T 参数、49B 激活、1M 上下文、价格几乎为零。模型层商品化到这个速度，所有任务都跑顶尖模型基本就是"在烧钱"。

💡#13

@VerbumEng
https://x.com/VerbumEng/status/2051678316587819022
对 harness/model 拆分从论坛口水变成可运行 repo 这件事，今天最干净的一段评论。DeepClaude 把 Anthropic 把模型和 Claude Code harness 焊在一起的那个焊缝撬开了。harness 拥有 agent loop、文件编辑、工作流人机工程；模型变成可换的推理引擎。一旦 harness 可移植，锁定就从模型层移到 harness 层。要重新评估你押注哪一层、信任哪一层。

💡#14

@grapeot
https://x.com/grapeot/status/2051734189054255164
过去两年 AI 工具最明显的变化不是 prompt 变得更复杂，而是哪些脚手架被 Claude Code、Codex、Cursor、OpenCode 这些 runtime 商品化了。agent loop、文件读写、shell、测试反馈、上下文压缩，已经不需要你自己维护。剩下值得自己设计的：domain context、eval、权限边界、质量标准、判断框架。人的工作正在从执行迁移到边界判断。

💡#15

@teach_fireworks
https://x.com/teach_fireworks/status/2051808777457016922
OpenAI Agent SDK 把"Harness/Compute 分离架构"作为新默认发布。可信层（Harness + Secrets）跑在你能控制的环境里，掌握 API key、agent loop 调度、MCPS/Tools 编排。沙箱层跑模型生成的代码、shell、文件操作，没有任何高权限凭证。能挡 prompt injection。状态在沙箱重启之间保留，支持几小时甚至几天的长任务。跨平台、跨沙箱厂商。这是第一次有大厂为长时程 agent 执行发布参考架构。

💡#16

@ba_niu80557
https://x.com/ba_niu80557/status/2051569621506068817
今天最难读，也最该被生产团队读的一篇。Agent 框架编排"想法"，durable execution engine 编排"算力"。把这两件事混为一谈，按 AgentMarketCap 2026 是 73% 生产 agent 事故的根源。LangGraph 的 checkpointer 只在 node 之间存状态，不在 node 内部存——你那个跑到 4,237/10,000 的循环，worker 一重启就回到零。Temporal Cloud 累计执行 9.1T 个 action，YoY 380%。OpenAI 的 Codex 生产环境跑在 Temporal 上。能在生产里活下来的 pattern：Temporal 是脊柱，LangGraph 在决策点推理，每个有意义的边界都做 checkpoint。AI agent 是有状态的业务逻辑——分布式系统工程师在 2018 年就掌握的架构纪律，AI 团队需要补课。

💡#17

@zostaff
https://x.com/zostaff/status/2051745994656874791
跑 5 个 YouTube 频道加 15 个 Telegram 频道、Claude 全自动驾驶的生产架构。事件驱动 pipeline、多 agent 循环、用 fine-tune 过的 Llama 做廉价分类。失败模式都列出来了。每一项成本都公开了。同时开源一个 MIT Python 实现的 Telegram 频道 RAG 聊天机器人——botpress 收 99-2000 美元/月、manychat AI 收 15-99/月、chatfuel pro 收 79-499/月，他们卖的就是 Telegram API + embedding 库 + LLM 调用三件事，200 行 Python。具体的内容自动化操作系统，不是 demo。

💡#18

@h100envy
https://x.com/h100envy/status/2051739433301413917
五个 agent 的 YouTube 频道自动驾驶系统，全部开源。内容策略 → 脚本写作 → 缩略图设计 → SEO 优化 → 发布 agent。每个 agent 占一个阶段；交接走共享 state，不走同步 orchestrator。一个 agent 失败不会停掉其他人。这是 content agency 收 5K-15K/月去运营的架构，跑在一台 VPS 上只付 token 费用。GitHub 上多数"AI YouTube"仓库都只是一个 Python 脚本调 GPT 然后结束——这个交付完整 pipeline。

💡#19

@NarwalSpeaks
https://x.com/NarwalSpeaks/status/2051801486498406729
一篇审计 LLM 和 agent 生成软件技术债的论文，发现一个"Reasoning-Complexity Trade-off"：模型越强，代码越臃肿、耦合更紧、更难维护。代码量几乎可以完美预测结构性腐化。换更好的 prompt 也修不好。问题是 agent loop 自身缺乏架构远见。如果你团队评估 coding agent 只看功能正确性，那是在量错东西——能过测试也可能给你留下半年后要付钱清理的烂摊子。

💡#20

@CVShenghaoLi
https://x.com/CVShenghaoLi/status/2051724348264747080
Ctx2Skill：自我对弈的多 agent 循环自动发现 context skill。Challenger 出题，Reasoner 演化。GPT-4.1 在 CL-bench 从 11% 到 16.5%，GPT-5.1 从 21% 到 25.8%。零标签。和 EvoSkill 同样的逻辑，但作用在 context skill 这一轴而不是 prompt 轴——栈的不同层，相同原理：让循环去发现结构。

💡#21

@industriaalist
https://x.com/industriaalist/status/2051780403200176419
一个值得收藏的"领域成熟"观察：ML 越成熟，基础理论变得越笨。物理学曾有微分方程和光滑流形，后来 Wolfram 证明这些观察到的连续性是从更简单的离散过程涌现出来的。ML 曾有花哨的 Hessian、动量、收敛定理。现在 alphaevolve 和 autoresearch 表明离散搜索能用，是因为模型维度高，足够多步之后某些方向就有效。"就是 guess and check 放大"。给所有想把 autoresearch 神化超过这一点的人一个校准。

💡#22

@AIDailyGems
https://x.com/AIDailyGems/status/2051747905598545994
ARIS——Auto-Research-In-Sleep——纯 markdown 的 skill 用于自主 ML 研究：跨模型 review 循环、想法发现、实验自动化。名字本身就是它的 pitch：研究在你睡觉时进行，醒来看结果。和 pi-autoresearch、Karpathy autoresearch 一起，正在成为大家用来搭 agentic loop 的标配 skill 集。

💡#23

@seanwbren
https://x.com/seanwbren/status/2051784088638358003
做了一个 Feynman 主题的 autoresearch CLI，去探索并发表"地图边缘"。一天从这个 agent 输出三篇文章：稳定币生成器想法、agent ownership token 加自动 launch、还有 autoresearch CLI 自己。"agent 跑长任务，你从产物里发表"这个 pattern 正在变成一种写作工作流。

💡#24

@celestepoasts
https://x.com/celestepoasts/status/2051549569280856537
"让一个 Claude 用 Karpathy autoresearch 跑 hill climb 探测架构——觉得有点意思"。短贴大想法：把 agentic hill climb 用在架构选择而不是超参上。没明说的暗示是 autoresearch 一旦成熟，优化目标会顺着抽象阶梯往上走，从训练参数走到模型设计本身。

💡#25

@Bilalbinsaqib
https://x.com/Bilalbinsaqib/status/2051627722858991796
他在 Papercliping 上跑了一个周末 CEO + 工程师 + 设计师 agent 团队。每个有定义好的角色和范围，落到 inbox 等你批准入职或拒绝，上线之后协调任务、把活交给彼此、报告 blocker、随着规模扩大请求新的人手。每个 agent 的 API 花费和成功率实时可见。有意思的问题不再是"能力"——单个 agent 哪儿都能干了。是这件事对 1.5 万亿美金全球自由职业市场意味着什么——这个市场建立在"技能住在人身上"这个假设上。当你能用零钱攒出一个按需扩缩、永远不需要 onboarding 的团队，假设就开始崩。新的稀缺技能是审批链顶端的判断力。

💡#26

@nash_su
https://x.com/nash_su/status/2051490587032031313
递归是 AI 解决问题的临时最优解。RLM、Recursive Agent、autoresearch——本质都是让 LLM 重复同一个任务直到达到目标。和让 Claude 对同一段代码做几次 review 一样，bug 会逐渐收敛。只有现在 AI 提供过剩生产力的情况下才能这么干。一旦这个过剩收紧，每次循环的成本逻辑就要重新算。

💡#27

@brighton2dx
https://x.com/brighton2dx/status/2051751658913468797
一个尖锐的备注：harness-autoresearch 太烧 token。他用 v2.1.98 + Opus 4.6 + medium effort 来稳住自主 harness 的任务执行。本地 LLM 还没到 Opus 4.6 这种水平，所以 autoresearch 跑本地还差一口气。autoresearch 上的 token 成本天花板是真实存在的，多数发烧友还没碰到，因为他们跑在 Max 订阅上，掩盖了每次循环的实际经济账。

📡 生态产品雷达

生态产品雷达

Karpathy autoresearch（种子）—— 被 @AndrewK404、@dibwuru、@celestepoasts、@aliasaria、@0rdlibrary、@gleech、@4xiom_、@dosco、@chenzeling4、@myainotez、@alokbishoyi97（多次）、@techczech、@grok、@zebanderson 反复引用。今天 Loop 主题被引最多的源头。

pi-autoresearch —— 6,397 星（@chenzeling4）。pi AI agent 的自主实验循环。star 数最高的 autoresearch 分叉。

EvoSkill（Sentient）—— Apache 2.0 的 skill 演化循环，接 Claude Code、Codex CLI、OpenCode、OpenHands、Goose（@Fr0oZi）。OfficeQA 60.6→68.1，SealQA 26.6→38.7。

DeepClaude —— 把 DeepSeek V4 Pro 通过 Anthropic 兼容 endpoint 接进 Claude Code harness 的开源 wrapper（@johngaaltt、@VerbumEng、@connect24h、@mybitstar）。HN 433+ 分。

OpenAI Agent SDK —— 新的 Harness/Compute 分离架构，给长时程执行做参考（@teach_fireworks、@theagenticmind）。

Temporal —— 生产 agent 的 durable execution engine。9.1T 累计 action，YoY 380%（@ba_niu80557）。OpenAI 的 Codex 生产用它。

TransformerLab —— autoresearch 原生进 lab UI（@aliasaria）。ML 研究即过夜批处理。

ATLAS —— 交易策略演化循环，25+ 自主 agent，Sharpe 下滑就重写 prompt（@RoundtableSpace）。真实资金。

ARIS（Auto-Research-In-Sleep）—— markdown 形式的自主 ML 研究 skill（@AIDailyGems）。

Ctx2Skill —— 自我对弈的多 agent 循环用于 context skill 发现（@CVShenghaoLi）。和 EvoSkill 同原理，作用在不同栈层。

Forge —— 三分钟跑 53 个 Hyperliquid 实验的交易 agent（@dibwuru）。

Papercliping —— 带审批层 human-in-the-loop 的 agent 团队管理平台（@Bilalbinsaqib）。

← 上一篇

超级用户日报: 2026-05-07

灵感雷达: 2026-05-07

← 返回所有文章

加载中...

Loop 日报: 2026-05-07

更多文章

评论