Loop 日报: 2026-05-07
今天 autoresearch 圈不再发 demo 了,开始发凭证。一个交易员让 agent 在三分钟内跑 53 个实验、用 91 天真实 Hyperliquid 数据验证,Sharpe 从 -1.55 飙到 5.67。一家医疗影像创业公司两周烧掉 500 美金 API 额度,把一个手工调不动的多维 pipeline 推过去了。一个研究实验室把 autoresearch 原生塞进 TransformerLab,原本要几个月的 ML 工作现在过夜跑完。规律是一致的:真实数字、真实 pipeline、真实金钱。下面是 5 月 5 日 Loop 主题信号最强的几条,按"循环本身做得多严谨"排序。
#1
@AndrewK404
https://x.com/AndrewK404/status/2051651106539769908
今天最工程化的 autoresearch v2。Karpathy 那版 autoresearch 是个不错的 PoC,但难点不是不让 agent 改代码,难点是怎么保持一个长跑优化诚实——记忆、异步实验、证伪条件、什么时候停止调超参往上跳一层抽象。Andrew 围绕五个原语重写:CONFIG.md 当冻结合约、MEMORY.md 当实时状态、LESSONS.md 只在多次胜出后才写、异步实验和研究循环、每个假设都要有数值证伪、搜索停滞时分级升级。这是第一份把 autoresearch 当控制系统问题而不是 vibe 来处理的文档。
https://x.com/AndrewK404/status/2051651106539769908
今天最工程化的 autoresearch v2。Karpathy 那版 autoresearch 是个不错的 PoC,但难点不是不让 agent 改代码,难点是怎么保持一个长跑优化诚实——记忆、异步实验、证伪条件、什么时候停止调超参往上跳一层抽象。Andrew 围绕五个原语重写:CONFIG.md 当冻结合约、MEMORY.md 当实时状态、LESSONS.md 只在多次胜出后才写、异步实验和研究循环、每个假设都要有数值证伪、搜索停滞时分级升级。这是第一份把 autoresearch 当控制系统问题而不是 vibe 来处理的文档。
#2
@dibwuru
https://x.com/dibwuru/status/2051515255621099941
他给 Forge agent 一个任务:"跑交易实验,找出有效的"。三分钟跑了 53 个实验,用 91 天真实 Hyperliquid 数据验证最佳的一个。手动 baseline:Sharpe -1.55,胜率 19%,最大回撤 72%。优化后:Sharpe 5.67,胜率 81%,73 笔交易,最大回撤 35.8%。策略是 ETH 4H 的布林带回归。最大的发现不是参数更好——是市场错了。同一逻辑在 ETH/4H 上吊打 HYPE 和 SOL。成本:0 美元(公开 Hyperliquid API),只用 CPU,三分钟。灵感来自 Karpathy 的 autoresearch。这是今天最干净的"让机器搜策略空间"的演示。
https://x.com/dibwuru/status/2051515255621099941
他给 Forge agent 一个任务:"跑交易实验,找出有效的"。三分钟跑了 53 个实验,用 91 天真实 Hyperliquid 数据验证最佳的一个。手动 baseline:Sharpe -1.55,胜率 19%,最大回撤 72%。优化后:Sharpe 5.67,胜率 81%,73 笔交易,最大回撤 35.8%。策略是 ETH 4H 的布林带回归。最大的发现不是参数更好——是市场错了。同一逻辑在 ETH/4H 上吊打 HYPE 和 SOL。成本:0 美元(公开 Hyperliquid API),只用 CPU,三分钟。灵感来自 Karpathy 的 autoresearch。这是今天最干净的"让机器搜策略空间"的演示。
#3
@SinaShahandeh
https://x.com/SinaShahandeh/status/2051748925493703159
医疗器械软件公司在多维医学影像处理 pipeline 上跑 auto-research 风格的优化。两周烧 500 美元的 API 额度,他说想烧更多也行。值得记的备注:连 GPT-5.5 都还在 hypothesis generation 这一步挣扎。他正在准备一个 benchmark,已投 AI Engineer 大会。翻译过来:科学的 hill-climb 类问题在算力维度已经便宜到不像话了,但瓶颈正从算力迁移到 agent 自己想出值得做的实验的能力。
https://x.com/SinaShahandeh/status/2051748925493703159
医疗器械软件公司在多维医学影像处理 pipeline 上跑 auto-research 风格的优化。两周烧 500 美元的 API 额度,他说想烧更多也行。值得记的备注:连 GPT-5.5 都还在 hypothesis generation 这一步挣扎。他正在准备一个 benchmark,已投 AI Engineer 大会。翻译过来:科学的 hill-climb 类问题在算力维度已经便宜到不像话了,但瓶颈正从算力迁移到 agent 自己想出值得做的实验的能力。
#4
@aliasaria
https://x.com/aliasaria/status/2051743701647368615
他把 Karpathy 的 autoresearch 功能原生做进了 TransformerLab。他说这种 harness 应该是未来所有 ML 研究工作的一部分。原本要几个月的活,现在他睡觉的时候自动跑完了。一句话埋在一个小推里,但这是关于 ML 研究下一步去向最接近论纲的表述:研究即过夜批处理。
https://x.com/aliasaria/status/2051743701647368615
他把 Karpathy 的 autoresearch 功能原生做进了 TransformerLab。他说这种 harness 应该是未来所有 ML 研究工作的一部分。原本要几个月的活,现在他睡觉的时候自动跑完了。一句话埋在一个小推里,但这是关于 ML 研究下一步去向最接近论纲的表述:研究即过夜批处理。
#5
@4xiom_
https://x.com/4xiom_/status/2051725243354608089
"目前在做水文/土木工程领域的自动化 ML 研究。我甚至不是工程师。多谢给的 10x token,我用 autoresearch 风格的工具发现,过夜跑了一堆实验。" 一个非工程师在土木工程问题上跑 ML 研究,靠的就是 overnight agent loop。下游影响:所有有反馈循环、有非工程师懂领域的应用科学,都刚刚拥有了自己的研究部门。
https://x.com/4xiom_/status/2051725243354608089
"目前在做水文/土木工程领域的自动化 ML 研究。我甚至不是工程师。多谢给的 10x token,我用 autoresearch 风格的工具发现,过夜跑了一堆实验。" 一个非工程师在土木工程问题上跑 ML 研究,靠的就是 overnight agent loop。下游影响:所有有反馈循环、有非工程师懂领域的应用科学,都刚刚拥有了自己的研究部门。
#6
@Fr0oZi
https://x.com/Fr0oZi/status/2051695917552537841
Sentient 的 EvoSkill——Apache 2.0,能接进 Claude Code、Codex CLI、OpenCode、OpenHands、Goose。输入是一份带 ground truth 的 CSV、一个任务描述、一个 coding agent。它会同时变异 skill 和 prompt,在 held-out 数据上测试,留下有效的,自动跑直到分数停滞。关键数字:OfficeQA 从 60.6% 到 68.1%(SOTA),SealQA 从 26.6% 到 38.7%,零人类介入。在 Claude Code 上演化出来的 skill 能转移到 Gemini、Qwen、Kimi、GPT——跨模型加跨任务的迁移同时成立。这是第一个一上来就支持五个主流 harness 的 prompt-and-skill 优化器。
https://x.com/Fr0oZi/status/2051695917552537841
Sentient 的 EvoSkill——Apache 2.0,能接进 Claude Code、Codex CLI、OpenCode、OpenHands、Goose。输入是一份带 ground truth 的 CSV、一个任务描述、一个 coding agent。它会同时变异 skill 和 prompt,在 held-out 数据上测试,留下有效的,自动跑直到分数停滞。关键数字:OfficeQA 从 60.6% 到 68.1%(SOTA),SealQA 从 26.6% 到 38.7%,零人类介入。在 Claude Code 上演化出来的 skill 能转移到 Gemini、Qwen、Kimi、GPT——跨模型加跨任务的迁移同时成立。这是第一个一上来就支持五个主流 harness 的 prompt-and-skill 优化器。
#7
@RoundtableSpace
https://x.com/RoundtableSpace/status/2051658627870597498
Atlas:25+ 个自主 agent 每个交易日在 4 层架构里互相辩论。每个建议都会跟真实结果打分。最弱那个 agent 的 prompt 会被重写。如果 Sharpe 改善,提交保留;不改善就 revert。灵感来自 autoresearch、reflexivity 和 swarm dynamics,但直接对准金融市场。一台 20 美金/月的 VM 替代了重型训练循环,agent 从市场范式切换、知识缺口、新策略孵化里持续学习。已经在用真实资金跑。这是一个策略种群上"演化压力"实际跑起来的样子。
https://x.com/RoundtableSpace/status/2051658627870597498
Atlas:25+ 个自主 agent 每个交易日在 4 层架构里互相辩论。每个建议都会跟真实结果打分。最弱那个 agent 的 prompt 会被重写。如果 Sharpe 改善,提交保留;不改善就 revert。灵感来自 autoresearch、reflexivity 和 swarm dynamics,但直接对准金融市场。一台 20 美金/月的 VM 替代了重型训练循环,agent 从市场范式切换、知识缺口、新策略孵化里持续学习。已经在用真实资金跑。这是一个策略种群上"演化压力"实际跑起来的样子。
#8
@chenzeling4
https://x.com/chenzeling4/status/2051593879829270794
pi-autoresearch 现在 6,397 颗星。给 pi AI agent 做的自主实验循环:试一个想法,benchmark,留下改进,回退退步,永远循环下去。可以用在测试速度、bundle 大小、构建时间上。作者 davebcn87。同一颗 Karpathy 种子已经在水文、金融、医学影像、pi agent 自身上长出领域专属的分叉,证明这个 pattern 一旦团队认真投入就组合得很干净。
https://x.com/chenzeling4/status/2051593879829270794
pi-autoresearch 现在 6,397 颗星。给 pi AI agent 做的自主实验循环:试一个想法,benchmark,留下改进,回退退步,永远循环下去。可以用在测试速度、bundle 大小、构建时间上。作者 davebcn87。同一颗 Karpathy 种子已经在水文、金融、医学影像、pi agent 自身上长出领域专属的分叉,证明这个 pattern 一旦团队认真投入就组合得很干净。
#9
@aparjey + @versalabsai(联合的攻防游戏)
https://x.com/aparjey/status/2051778475783328071
现场版 "agent 被破,重写防御 prompt,重部署" 循环,29 次尝试之后才有人破开。这 29 次的费用资助了 treasury,treasury 再去支付下一轮。Versalabsai 确认这个玩法已经常见到他们直接发指引让用户加固自己的防御 prompt。对抗式 autoresearch 正在变成一个真正的子流派——循环不在实验和 benchmark 之间,而是在攻击者、防御 prompt 和链上经济之间。
https://x.com/aparjey/status/2051778475783328071
现场版 "agent 被破,重写防御 prompt,重部署" 循环,29 次尝试之后才有人破开。这 29 次的费用资助了 treasury,treasury 再去支付下一轮。Versalabsai 确认这个玩法已经常见到他们直接发指引让用户加固自己的防御 prompt。对抗式 autoresearch 正在变成一个真正的子流派——循环不在实验和 benchmark 之间,而是在攻击者、防御 prompt 和链上经济之间。
#10
@alokbishoyi97
https://x.com/alokbishoyi97/status/2051550087768404328
开源了一个 autoresearch orchestrator,跑并行 agent 加树搜索。后续那条更关键:他用 RLM 风格的记忆(存假设、trace、log),每次 ideation 时都喂回 orchestrator。这正面回应了 soubhik_deb 指出的更难那一面——autoresearch 里的记忆不是"压缩然后取用",是"默认导航 idea space"。第一个开源对这个 pattern 的尝试。
https://x.com/alokbishoyi97/status/2051550087768404328
开源了一个 autoresearch orchestrator,跑并行 agent 加树搜索。后续那条更关键:他用 RLM 风格的记忆(存假设、trace、log),每次 ideation 时都喂回 orchestrator。这正面回应了 soubhik_deb 指出的更难那一面——autoresearch 里的记忆不是"压缩然后取用",是"默认导航 idea space"。第一个开源对这个 pattern 的尝试。
#11
@soubhik_deb
https://x.com/soubhik_deb/status/2051787501329879431
我看过对 coding-agent 记忆和 autoresearch 记忆区别讲得最清楚的一段话。Coding agent 的长期记忆关心压缩,便于需要时把关键点取出来。Autoresearch 记忆关心默认导航——过去的想法和过去实现的诊断必须每次 ideation 时都被引用,因为它们决定每一次 exploration vs exploitation 的判断。这个差别是大多数团队还没起名字的架构分叉。
https://x.com/soubhik_deb/status/2051787501329879431
我看过对 coding-agent 记忆和 autoresearch 记忆区别讲得最清楚的一段话。Coding agent 的长期记忆关心压缩,便于需要时把关键点取出来。Autoresearch 记忆关心默认导航——过去的想法和过去实现的诊断必须每次 ideation 时都被引用,因为它们决定每一次 exploration vs exploitation 的判断。这个差别是大多数团队还没起名字的架构分叉。
#12
@johngaaltt
https://x.com/johngaaltt/status/2051537625501294985
他把 agent loop 切到 DeepSeek V4 Pro,走 Anthropic 兼容 endpoint,每天的推理成本暴跌。GitHub 上的 DeepClaude 在 HN 拿了 476 分,作为开源 wrapper 干同一件事。在他 80% 的用法(脚手架、集成代码、模块重构)里,输出和 Opus 看不出区别。剩下 20% Claude 还领先的部分(大代码库的模糊架构推理)他手动路由到 Opus。DeepSeek V4 Pro 1.6T 参数、49B 激活、1M 上下文、价格几乎为零。模型层商品化到这个速度,所有任务都跑顶尖模型基本就是"在烧钱"。
https://x.com/johngaaltt/status/2051537625501294985
他把 agent loop 切到 DeepSeek V4 Pro,走 Anthropic 兼容 endpoint,每天的推理成本暴跌。GitHub 上的 DeepClaude 在 HN 拿了 476 分,作为开源 wrapper 干同一件事。在他 80% 的用法(脚手架、集成代码、模块重构)里,输出和 Opus 看不出区别。剩下 20% Claude 还领先的部分(大代码库的模糊架构推理)他手动路由到 Opus。DeepSeek V4 Pro 1.6T 参数、49B 激活、1M 上下文、价格几乎为零。模型层商品化到这个速度,所有任务都跑顶尖模型基本就是"在烧钱"。
#13
@VerbumEng
https://x.com/VerbumEng/status/2051678316587819022
对 harness/model 拆分从论坛口水变成可运行 repo 这件事,今天最干净的一段评论。DeepClaude 把 Anthropic 把模型和 Claude Code harness 焊在一起的那个焊缝撬开了。harness 拥有 agent loop、文件编辑、工作流人机工程;模型变成可换的推理引擎。一旦 harness 可移植,锁定就从模型层移到 harness 层。要重新评估你押注哪一层、信任哪一层。
https://x.com/VerbumEng/status/2051678316587819022
对 harness/model 拆分从论坛口水变成可运行 repo 这件事,今天最干净的一段评论。DeepClaude 把 Anthropic 把模型和 Claude Code harness 焊在一起的那个焊缝撬开了。harness 拥有 agent loop、文件编辑、工作流人机工程;模型变成可换的推理引擎。一旦 harness 可移植,锁定就从模型层移到 harness 层。要重新评估你押注哪一层、信任哪一层。
#14
@grapeot
https://x.com/grapeot/status/2051734189054255164
过去两年 AI 工具最明显的变化不是 prompt 变得更复杂,而是哪些脚手架被 Claude Code、Codex、Cursor、OpenCode 这些 runtime 商品化了。agent loop、文件读写、shell、测试反馈、上下文压缩,已经不需要你自己维护。剩下值得自己设计的:domain context、eval、权限边界、质量标准、判断框架。人的工作正在从执行迁移到边界判断。
https://x.com/grapeot/status/2051734189054255164
过去两年 AI 工具最明显的变化不是 prompt 变得更复杂,而是哪些脚手架被 Claude Code、Codex、Cursor、OpenCode 这些 runtime 商品化了。agent loop、文件读写、shell、测试反馈、上下文压缩,已经不需要你自己维护。剩下值得自己设计的:domain context、eval、权限边界、质量标准、判断框架。人的工作正在从执行迁移到边界判断。
#15
@teach_fireworks
https://x.com/teach_fireworks/status/2051808777457016922
OpenAI Agent SDK 把"Harness/Compute 分离架构"作为新默认发布。可信层(Harness + Secrets)跑在你能控制的环境里,掌握 API key、agent loop 调度、MCPS/Tools 编排。沙箱层跑模型生成的代码、shell、文件操作,没有任何高权限凭证。能挡 prompt injection。状态在沙箱重启之间保留,支持几小时甚至几天的长任务。跨平台、跨沙箱厂商。这是第一次有大厂为长时程 agent 执行发布参考架构。
https://x.com/teach_fireworks/status/2051808777457016922
OpenAI Agent SDK 把"Harness/Compute 分离架构"作为新默认发布。可信层(Harness + Secrets)跑在你能控制的环境里,掌握 API key、agent loop 调度、MCPS/Tools 编排。沙箱层跑模型生成的代码、shell、文件操作,没有任何高权限凭证。能挡 prompt injection。状态在沙箱重启之间保留,支持几小时甚至几天的长任务。跨平台、跨沙箱厂商。这是第一次有大厂为长时程 agent 执行发布参考架构。
#16
@ba_niu80557
https://x.com/ba_niu80557/status/2051569621506068817
今天最难读,也最该被生产团队读的一篇。Agent 框架编排"想法",durable execution engine 编排"算力"。把这两件事混为一谈,按 AgentMarketCap 2026 是 73% 生产 agent 事故的根源。LangGraph 的 checkpointer 只在 node 之间存状态,不在 node 内部存——你那个跑到 4,237/10,000 的循环,worker 一重启就回到零。Temporal Cloud 累计执行 9.1T 个 action,YoY 380%。OpenAI 的 Codex 生产环境跑在 Temporal 上。能在生产里活下来的 pattern:Temporal 是脊柱,LangGraph 在决策点推理,每个有意义的边界都做 checkpoint。AI agent 是有状态的业务逻辑——分布式系统工程师在 2018 年就掌握的架构纪律,AI 团队需要补课。
https://x.com/ba_niu80557/status/2051569621506068817
今天最难读,也最该被生产团队读的一篇。Agent 框架编排"想法",durable execution engine 编排"算力"。把这两件事混为一谈,按 AgentMarketCap 2026 是 73% 生产 agent 事故的根源。LangGraph 的 checkpointer 只在 node 之间存状态,不在 node 内部存——你那个跑到 4,237/10,000 的循环,worker 一重启就回到零。Temporal Cloud 累计执行 9.1T 个 action,YoY 380%。OpenAI 的 Codex 生产环境跑在 Temporal 上。能在生产里活下来的 pattern:Temporal 是脊柱,LangGraph 在决策点推理,每个有意义的边界都做 checkpoint。AI agent 是有状态的业务逻辑——分布式系统工程师在 2018 年就掌握的架构纪律,AI 团队需要补课。
#17
@zostaff
https://x.com/zostaff/status/2051745994656874791
跑 5 个 YouTube 频道加 15 个 Telegram 频道、Claude 全自动驾驶的生产架构。事件驱动 pipeline、多 agent 循环、用 fine-tune 过的 Llama 做廉价分类。失败模式都列出来了。每一项成本都公开了。同时开源一个 MIT Python 实现的 Telegram 频道 RAG 聊天机器人——botpress 收 99-2000 美元/月、manychat AI 收 15-99/月、chatfuel pro 收 79-499/月,他们卖的就是 Telegram API + embedding 库 + LLM 调用三件事,200 行 Python。具体的内容自动化操作系统,不是 demo。
https://x.com/zostaff/status/2051745994656874791
跑 5 个 YouTube 频道加 15 个 Telegram 频道、Claude 全自动驾驶的生产架构。事件驱动 pipeline、多 agent 循环、用 fine-tune 过的 Llama 做廉价分类。失败模式都列出来了。每一项成本都公开了。同时开源一个 MIT Python 实现的 Telegram 频道 RAG 聊天机器人——botpress 收 99-2000 美元/月、manychat AI 收 15-99/月、chatfuel pro 收 79-499/月,他们卖的就是 Telegram API + embedding 库 + LLM 调用三件事,200 行 Python。具体的内容自动化操作系统,不是 demo。
#18
@h100envy
https://x.com/h100envy/status/2051739433301413917
五个 agent 的 YouTube 频道自动驾驶系统,全部开源。内容策略 → 脚本写作 → 缩略图设计 → SEO 优化 → 发布 agent。每个 agent 占一个阶段;交接走共享 state,不走同步 orchestrator。一个 agent 失败不会停掉其他人。这是 content agency 收 5K-15K/月去运营的架构,跑在一台 VPS 上只付 token 费用。GitHub 上多数"AI YouTube"仓库都只是一个 Python 脚本调 GPT 然后结束——这个交付完整 pipeline。
https://x.com/h100envy/status/2051739433301413917
五个 agent 的 YouTube 频道自动驾驶系统,全部开源。内容策略 → 脚本写作 → 缩略图设计 → SEO 优化 → 发布 agent。每个 agent 占一个阶段;交接走共享 state,不走同步 orchestrator。一个 agent 失败不会停掉其他人。这是 content agency 收 5K-15K/月去运营的架构,跑在一台 VPS 上只付 token 费用。GitHub 上多数"AI YouTube"仓库都只是一个 Python 脚本调 GPT 然后结束——这个交付完整 pipeline。
#19
@NarwalSpeaks
https://x.com/NarwalSpeaks/status/2051801486498406729
一篇审计 LLM 和 agent 生成软件技术债的论文,发现一个"Reasoning-Complexity Trade-off":模型越强,代码越臃肿、耦合更紧、更难维护。代码量几乎可以完美预测结构性腐化。换更好的 prompt 也修不好。问题是 agent loop 自身缺乏架构远见。如果你团队评估 coding agent 只看功能正确性,那是在量错东西——能过测试也可能给你留下半年后要付钱清理的烂摊子。
https://x.com/NarwalSpeaks/status/2051801486498406729
一篇审计 LLM 和 agent 生成软件技术债的论文,发现一个"Reasoning-Complexity Trade-off":模型越强,代码越臃肿、耦合更紧、更难维护。代码量几乎可以完美预测结构性腐化。换更好的 prompt 也修不好。问题是 agent loop 自身缺乏架构远见。如果你团队评估 coding agent 只看功能正确性,那是在量错东西——能过测试也可能给你留下半年后要付钱清理的烂摊子。
#20
@CVShenghaoLi
https://x.com/CVShenghaoLi/status/2051724348264747080
Ctx2Skill:自我对弈的多 agent 循环自动发现 context skill。Challenger 出题,Reasoner 演化。GPT-4.1 在 CL-bench 从 11% 到 16.5%,GPT-5.1 从 21% 到 25.8%。零标签。和 EvoSkill 同样的逻辑,但作用在 context skill 这一轴而不是 prompt 轴——栈的不同层,相同原理:让循环去发现结构。
https://x.com/CVShenghaoLi/status/2051724348264747080
Ctx2Skill:自我对弈的多 agent 循环自动发现 context skill。Challenger 出题,Reasoner 演化。GPT-4.1 在 CL-bench 从 11% 到 16.5%,GPT-5.1 从 21% 到 25.8%。零标签。和 EvoSkill 同样的逻辑,但作用在 context skill 这一轴而不是 prompt 轴——栈的不同层,相同原理:让循环去发现结构。
#21
@industriaalist
https://x.com/industriaalist/status/2051780403200176419
一个值得收藏的"领域成熟"观察:ML 越成熟,基础理论变得越笨。物理学曾有微分方程和光滑流形,后来 Wolfram 证明这些观察到的连续性是从更简单的离散过程涌现出来的。ML 曾有花哨的 Hessian、动量、收敛定理。现在 alphaevolve 和 autoresearch 表明离散搜索能用,是因为模型维度高,足够多步之后某些方向就有效。"就是 guess and check 放大"。给所有想把 autoresearch 神化超过这一点的人一个校准。
https://x.com/industriaalist/status/2051780403200176419
一个值得收藏的"领域成熟"观察:ML 越成熟,基础理论变得越笨。物理学曾有微分方程和光滑流形,后来 Wolfram 证明这些观察到的连续性是从更简单的离散过程涌现出来的。ML 曾有花哨的 Hessian、动量、收敛定理。现在 alphaevolve 和 autoresearch 表明离散搜索能用,是因为模型维度高,足够多步之后某些方向就有效。"就是 guess and check 放大"。给所有想把 autoresearch 神化超过这一点的人一个校准。
#22
@AIDailyGems
https://x.com/AIDailyGems/status/2051747905598545994
ARIS——Auto-Research-In-Sleep——纯 markdown 的 skill 用于自主 ML 研究:跨模型 review 循环、想法发现、实验自动化。名字本身就是它的 pitch:研究在你睡觉时进行,醒来看结果。和 pi-autoresearch、Karpathy autoresearch 一起,正在成为大家用来搭 agentic loop 的标配 skill 集。
https://x.com/AIDailyGems/status/2051747905598545994
ARIS——Auto-Research-In-Sleep——纯 markdown 的 skill 用于自主 ML 研究:跨模型 review 循环、想法发现、实验自动化。名字本身就是它的 pitch:研究在你睡觉时进行,醒来看结果。和 pi-autoresearch、Karpathy autoresearch 一起,正在成为大家用来搭 agentic loop 的标配 skill 集。
#23
@seanwbren
https://x.com/seanwbren/status/2051784088638358003
做了一个 Feynman 主题的 autoresearch CLI,去探索并发表"地图边缘"。一天从这个 agent 输出三篇文章:稳定币生成器想法、agent ownership token 加自动 launch、还有 autoresearch CLI 自己。"agent 跑长任务,你从产物里发表"这个 pattern 正在变成一种写作工作流。
https://x.com/seanwbren/status/2051784088638358003
做了一个 Feynman 主题的 autoresearch CLI,去探索并发表"地图边缘"。一天从这个 agent 输出三篇文章:稳定币生成器想法、agent ownership token 加自动 launch、还有 autoresearch CLI 自己。"agent 跑长任务,你从产物里发表"这个 pattern 正在变成一种写作工作流。
#24
@celestepoasts
https://x.com/celestepoasts/status/2051549569280856537
"让一个 Claude 用 Karpathy autoresearch 跑 hill climb 探测架构——觉得有点意思"。短贴大想法:把 agentic hill climb 用在架构选择而不是超参上。没明说的暗示是 autoresearch 一旦成熟,优化目标会顺着抽象阶梯往上走,从训练参数走到模型设计本身。
https://x.com/celestepoasts/status/2051549569280856537
"让一个 Claude 用 Karpathy autoresearch 跑 hill climb 探测架构——觉得有点意思"。短贴大想法:把 agentic hill climb 用在架构选择而不是超参上。没明说的暗示是 autoresearch 一旦成熟,优化目标会顺着抽象阶梯往上走,从训练参数走到模型设计本身。
#25
@Bilalbinsaqib
https://x.com/Bilalbinsaqib/status/2051627722858991796
他在 Papercliping 上跑了一个周末 CEO + 工程师 + 设计师 agent 团队。每个有定义好的角色和范围,落到 inbox 等你批准入职或拒绝,上线之后协调任务、把活交给彼此、报告 blocker、随着规模扩大请求新的人手。每个 agent 的 API 花费和成功率实时可见。有意思的问题不再是"能力"——单个 agent 哪儿都能干了。是这件事对 1.5 万亿美金全球自由职业市场意味着什么——这个市场建立在"技能住在人身上"这个假设上。当你能用零钱攒出一个按需扩缩、永远不需要 onboarding 的团队,假设就开始崩。新的稀缺技能是审批链顶端的判断力。
https://x.com/Bilalbinsaqib/status/2051627722858991796
他在 Papercliping 上跑了一个周末 CEO + 工程师 + 设计师 agent 团队。每个有定义好的角色和范围,落到 inbox 等你批准入职或拒绝,上线之后协调任务、把活交给彼此、报告 blocker、随着规模扩大请求新的人手。每个 agent 的 API 花费和成功率实时可见。有意思的问题不再是"能力"——单个 agent 哪儿都能干了。是这件事对 1.5 万亿美金全球自由职业市场意味着什么——这个市场建立在"技能住在人身上"这个假设上。当你能用零钱攒出一个按需扩缩、永远不需要 onboarding 的团队,假设就开始崩。新的稀缺技能是审批链顶端的判断力。
#26
@nash_su
https://x.com/nash_su/status/2051490587032031313
递归是 AI 解决问题的临时最优解。RLM、Recursive Agent、autoresearch——本质都是让 LLM 重复同一个任务直到达到目标。和让 Claude 对同一段代码做几次 review 一样,bug 会逐渐收敛。只有现在 AI 提供过剩生产力的情况下才能这么干。一旦这个过剩收紧,每次循环的成本逻辑就要重新算。
https://x.com/nash_su/status/2051490587032031313
递归是 AI 解决问题的临时最优解。RLM、Recursive Agent、autoresearch——本质都是让 LLM 重复同一个任务直到达到目标。和让 Claude 对同一段代码做几次 review 一样,bug 会逐渐收敛。只有现在 AI 提供过剩生产力的情况下才能这么干。一旦这个过剩收紧,每次循环的成本逻辑就要重新算。
#27
@brighton2dx
https://x.com/brighton2dx/status/2051751658913468797
一个尖锐的备注:harness-autoresearch 太烧 token。他用 v2.1.98 + Opus 4.6 + medium effort 来稳住自主 harness 的任务执行。本地 LLM 还没到 Opus 4.6 这种水平,所以 autoresearch 跑本地还差一口气。autoresearch 上的 token 成本天花板是真实存在的,多数发烧友还没碰到,因为他们跑在 Max 订阅上,掩盖了每次循环的实际经济账。
https://x.com/brighton2dx/status/2051751658913468797
一个尖锐的备注:harness-autoresearch 太烧 token。他用 v2.1.98 + Opus 4.6 + medium effort 来稳住自主 harness 的任务执行。本地 LLM 还没到 Opus 4.6 这种水平,所以 autoresearch 跑本地还差一口气。autoresearch 上的 token 成本天花板是真实存在的,多数发烧友还没碰到,因为他们跑在 Max 订阅上,掩盖了每次循环的实际经济账。
📡 生态产品雷达
生态产品雷达
Karpathy autoresearch(种子)—— 被 @AndrewK404、@dibwuru、@celestepoasts、@aliasaria、@0rdlibrary、@gleech、@4xiom_、@dosco、@chenzeling4、@myainotez、@alokbishoyi97(多次)、@techczech、@grok、@zebanderson 反复引用。今天 Loop 主题被引最多的源头。
pi-autoresearch —— 6,397 星(@chenzeling4)。pi AI agent 的自主实验循环。star 数最高的 autoresearch 分叉。
EvoSkill(Sentient)—— Apache 2.0 的 skill 演化循环,接 Claude Code、Codex CLI、OpenCode、OpenHands、Goose(@Fr0oZi)。OfficeQA 60.6→68.1,SealQA 26.6→38.7。
DeepClaude —— 把 DeepSeek V4 Pro 通过 Anthropic 兼容 endpoint 接进 Claude Code harness 的开源 wrapper(@johngaaltt、@VerbumEng、@connect24h、@mybitstar)。HN 433+ 分。
OpenAI Agent SDK —— 新的 Harness/Compute 分离架构,给长时程执行做参考(@teach_fireworks、@theagenticmind)。
Temporal —— 生产 agent 的 durable execution engine。9.1T 累计 action,YoY 380%(@ba_niu80557)。OpenAI 的 Codex 生产用它。
TransformerLab —— autoresearch 原生进 lab UI(@aliasaria)。ML 研究即过夜批处理。
ATLAS —— 交易策略演化循环,25+ 自主 agent,Sharpe 下滑就重写 prompt(@RoundtableSpace)。真实资金。
ARIS(Auto-Research-In-Sleep)—— markdown 形式的自主 ML 研究 skill(@AIDailyGems)。
Ctx2Skill —— 自我对弈的多 agent 循环用于 context skill 发现(@CVShenghaoLi)。和 EvoSkill 同原理,作用在不同栈层。
Forge —— 三分钟跑 53 个 Hyperliquid 实验的交易 agent(@dibwuru)。
Papercliping —— 带审批层 human-in-the-loop 的 agent 团队管理平台(@Bilalbinsaqib)。
Karpathy autoresearch(种子)—— 被 @AndrewK404、@dibwuru、@celestepoasts、@aliasaria、@0rdlibrary、@gleech、@4xiom_、@dosco、@chenzeling4、@myainotez、@alokbishoyi97(多次)、@techczech、@grok、@zebanderson 反复引用。今天 Loop 主题被引最多的源头。
pi-autoresearch —— 6,397 星(@chenzeling4)。pi AI agent 的自主实验循环。star 数最高的 autoresearch 分叉。
EvoSkill(Sentient)—— Apache 2.0 的 skill 演化循环,接 Claude Code、Codex CLI、OpenCode、OpenHands、Goose(@Fr0oZi)。OfficeQA 60.6→68.1,SealQA 26.6→38.7。
DeepClaude —— 把 DeepSeek V4 Pro 通过 Anthropic 兼容 endpoint 接进 Claude Code harness 的开源 wrapper(@johngaaltt、@VerbumEng、@connect24h、@mybitstar)。HN 433+ 分。
OpenAI Agent SDK —— 新的 Harness/Compute 分离架构,给长时程执行做参考(@teach_fireworks、@theagenticmind)。
Temporal —— 生产 agent 的 durable execution engine。9.1T 累计 action,YoY 380%(@ba_niu80557)。OpenAI 的 Codex 生产用它。
TransformerLab —— autoresearch 原生进 lab UI(@aliasaria)。ML 研究即过夜批处理。
ATLAS —— 交易策略演化循环,25+ 自主 agent,Sharpe 下滑就重写 prompt(@RoundtableSpace)。真实资金。
ARIS(Auto-Research-In-Sleep)—— markdown 形式的自主 ML 研究 skill(@AIDailyGems)。
Ctx2Skill —— 自我对弈的多 agent 循环用于 context skill 发现(@CVShenghaoLi)。和 EvoSkill 同原理,作用在不同栈层。
Forge —— 三分钟跑 53 个 Hyperliquid 实验的交易 agent(@dibwuru)。
Papercliping —— 带审批层 human-in-the-loop 的 agent 团队管理平台(@Bilalbinsaqib)。
评论