Loop 日报: April 07, 2026
autoresearch 模式正在悄然走出实验室。从最初的过夜 ML 实验循环开始,现在已经驱动 GPU 内核优化、交易策略回测、知识图谱构建、二进制逆向工程,甚至整个 Web 代理公司的运营。4月5日最值得关注的信号不是某个单独的项目,而是一个模式转变:人们正在把保留/回滚循环应用到根本不是代码的东西上。知识架构、业务流程、内容管线。这个循环正在成为通用的改进原语,围绕它的工具生态也在快速多元化。
#1
@Akashi203
https://x.com/Akashi203/status/2040781342535790810
在 arxiv 上发表了 autokernel,直接受 Karpathy autoresearch 启发。把保留/回滚 agent 循环应用到 GPU 内核优化,数据很硬核:RMSNorm 上比 PyTorch eager 快 5.29 倍,Softmax 快 2.82 倍,比 torch.compile 快 3.44 倍。拿下 vectorsum_v2 B200 排行榜第一。单次提示生成的 Triton FP4 矩阵乘法比 CUTLASS 最多快 2.15 倍。系统每小时跑约 40 个实验,整夜零人工干预。
https://x.com/Akashi203/status/2040781342535790810
在 arxiv 上发表了 autokernel,直接受 Karpathy autoresearch 启发。把保留/回滚 agent 循环应用到 GPU 内核优化,数据很硬核:RMSNorm 上比 PyTorch eager 快 5.29 倍,Softmax 快 2.82 倍,比 torch.compile 快 3.44 倍。拿下 vectorsum_v2 B200 排行榜第一。单次提示生成的 Triton FP4 矩阵乘法比 CUTLASS 最多快 2.15 倍。系统每小时跑约 40 个实验,整夜零人工干预。
#2
@0xSero
https://x.com/0xSero/status/2040731819125981515
认为 autoresearch 的热度已经退了,但底层范式是真实且持久的。他的判断是:今天有数百万件值得金钱、关注和认可的事情可以 autoresearch。这是一个逆向押注:这个模式相对于其实际效用是被低估了而非被高估了。大多数人已经追逐下一个闪亮的东西去了,而真正的实践者在每晚默默跑循环。
https://x.com/0xSero/status/2040731819125981515
认为 autoresearch 的热度已经退了,但底层范式是真实且持久的。他的判断是:今天有数百万件值得金钱、关注和认可的事情可以 autoresearch。这是一个逆向押注:这个模式相对于其实际效用是被低估了而非被高估了。大多数人已经追逐下一个闪亮的东西去了,而真正的实践者在每晚默默跑循环。
#3
@marketcallsHQ
https://x.com/marketcallsHQ/status/2040727182453231671
用 Claude Code、OpenAlgo、DuckDB 和 VectorBT 构建了自改进 AI 回测工作流。这是 autoresearch 循环应用于量化交易的案例,用 EMA 交叉策略作为演示。系统自主迭代策略参数。交易是那种适应度函数很明显(利润)但搜索空间巨大的领域,天然适合 agent 循环。
https://x.com/marketcallsHQ/status/2040727182453231671
用 Claude Code、OpenAlgo、DuckDB 和 VectorBT 构建了自改进 AI 回测工作流。这是 autoresearch 循环应用于量化交易的案例,用 EMA 交叉策略作为演示。系统自主迭代策略参数。交易是那种适应度函数很明显(利润)但搜索空间巨大的领域,天然适合 agent 循环。
#4
@ihtesham2005
https://x.com/ihtesham2005/status/2040776552515088637
发布了 AutoAgent,一个在循环中构建、测试、评分和改进 AI agent 的元 agent。一切由单个 program.md 文件控制。兼容 Harbor 基准测试,MIT 许可。有趣的架构选择是把 agent 构建本身作为优化目标。循环改进的不是代码或模型,而是之后要干活的 agent 本身。
https://x.com/ihtesham2005/status/2040776552515088637
发布了 AutoAgent,一个在循环中构建、测试、评分和改进 AI agent 的元 agent。一切由单个 program.md 文件控制。兼容 Harbor 基准测试,MIT 许可。有趣的架构选择是把 agent 构建本身作为优化目标。循环改进的不是代码或模型,而是之后要干活的 agent 本身。
#5
@RoscoeSitePro
https://x.com/RoscoeSitePro/status/2040693678163767752
把 AI agent 当作完整的 Web 代理公司来运行。工作区结构化为自维护的知识库,涵盖潜在客户、现有客户、分析、竞争情报和日志。agent 每晚运行健康检查,找到最薄弱的收入环节,跑实验,记录结果。这是 autoresearch 模式应用于商业运营而非技术研究。循环的目标是收入而非准确率。
https://x.com/RoscoeSitePro/status/2040693678163767752
把 AI agent 当作完整的 Web 代理公司来运行。工作区结构化为自维护的知识库,涵盖潜在客户、现有客户、分析、竞争情报和日志。agent 每晚运行健康检查,找到最薄弱的收入环节,跑实验,记录结果。这是 autoresearch 模式应用于商业运营而非技术研究。循环的目标是收入而非准确率。
#6
@Grisokay
https://x.com/Grisokay/status/2040601062038700256
构建了一个"潜意识 agent",作为持续的 LLM 进程在后台搜寻有价值的问题。流程是:想法→挑战→辩护→修正→拒绝/接受/搁置,每个想法最多 3 轮挑战。运行在本地 Qwen3.5 9B 加上通过 Hermes 连接的 ChatGPT 5.4 mini。可以理解为 autoresearch 应用于创意生成本身而非代码改进。agent 不是在优化指标,而是在生成和压力测试假设。
https://x.com/Grisokay/status/2040601062038700256
构建了一个"潜意识 agent",作为持续的 LLM 进程在后台搜寻有价值的问题。流程是:想法→挑战→辩护→修正→拒绝/接受/搁置,每个想法最多 3 轮挑战。运行在本地 Qwen3.5 9B 加上通过 Hermes 连接的 ChatGPT 5.4 mini。可以理解为 autoresearch 应用于创意生成本身而非代码改进。agent 不是在优化指标,而是在生成和压力测试假设。
#7
@morganlinton
https://x.com/morganlinton/status/2040810925004104079
将一个 Rust 实现的 autoresearch 项目开源。在真实代码库上试验这个概念,从 MVP 开始公开分享。作为该模式少数的 Rust 实现之一,从第一天就邀请社区协作,而不是先私下打磨。
https://x.com/morganlinton/status/2040810925004104079
将一个 Rust 实现的 autoresearch 项目开源。在真实代码库上试验这个概念,从 MVP 开始公开分享。作为该模式少数的 Rust 实现之一,从第一天就邀请社区协作,而不是先私下打磨。
#8
@kobi_gg
https://x.com/kobi_gg/status/2040788798775177387
将 autoresearch 模式应用于知识系统而非模型训练。不需要 GPU,一台笔记本加 Neo4j 加 Claude API 就行。总成本:17 美元。提议变更、评估、保留/回滚的循环在知识架构上和在代码上一样有效。这是最清晰的证明之一:循环模式与 ML 本身没有任何内在关联,它是一个通用的优化原语。
https://x.com/kobi_gg/status/2040788798775177387
将 autoresearch 模式应用于知识系统而非模型训练。不需要 GPU,一台笔记本加 Neo4j 加 Claude API 就行。总成本:17 美元。提议变更、评估、保留/回滚的循环在知识架构上和在代码上一样有效。这是最清晰的证明之一:循环模式与 ML 本身没有任何内在关联,它是一个通用的优化原语。
#9
@mamagnus00
https://x.com/mamagnus00/status/2040697119972196407
直言 Codex 做 autoresearch 很糟糕,如果你让它整夜循环运行,它几轮之后就停了。变通方案:解释循环的一个步骤然后排队几百个。249 个赞和 3.3 万次曝光说明这是很多人共有的痛点。人们想用 agent 循环做的事和当前工具实际支持的之间的基础设施鸿沟是真实且持久的。
https://x.com/mamagnus00/status/2040697119972196407
直言 Codex 做 autoresearch 很糟糕,如果你让它整夜循环运行,它几轮之后就停了。变通方案:解释循环的一个步骤然后排队几百个。249 个赞和 3.3 万次曝光说明这是很多人共有的痛点。人们想用 agent 循环做的事和当前工具实际支持的之间的基础设施鸿沟是真实且持久的。
#10
@EmergentMind
https://x.com/EmergentMind/status/2040797574269997416
发表了 Omni-SimpleMem 论文,展示 autoresearch 引导的终身多模态 agent 记忆发现。AI 自主运行多阶段研究循环,在实验中途诊断运行时错误,动态更换嵌入模型,实现了 411% 的 F1 分数提升。这是 autoresearch 在做真正的研究而非仅仅调参。agent 在循环中做出了架构级决策。
https://x.com/EmergentMind/status/2040797574269997416
发表了 Omni-SimpleMem 论文,展示 autoresearch 引导的终身多模态 agent 记忆发现。AI 自主运行多阶段研究循环,在实验中途诊断运行时错误,动态更换嵌入模型,实现了 411% 的 F1 分数提升。这是 autoresearch 在做真正的研究而非仅仅调参。agent 在循环中做出了架构级决策。
#11
@ramirosalas
https://x.com/ramirosalas/status/2040678105573146798
声称在这个模式被叫做 autoresearch 之前就一直在做了,用 GEPA 沿帕累托前沿进化算法,每晚发现新的 alpha。这强化了模式趋同的论点:多个独立的实践者从完全不同的起点出发,抵达了相同的核心循环。名字是新的,实践不是。
https://x.com/ramirosalas/status/2040678105573146798
声称在这个模式被叫做 autoresearch 之前就一直在做了,用 GEPA 沿帕累托前沿进化算法,每晚发现新的 alpha。这强化了模式趋同的论点:多个独立的实践者从完全不同的起点出发,抵达了相同的核心循环。名字是新的,实践不是。
#12
@_chinmaymk
https://x.com/_chinmaymk/status/2040627180808609890
自建了一个 autoresearch 工具,将 F1 分数提升了 10 个点。洞察是:一旦你有了 autoresearch,你还需要代码审查者和规划者,所以一个集成工具处理所有三个角色。循环本身是不够的,你需要围绕它的脚手架来防止多轮迭代中的质量退化。
https://x.com/_chinmaymk/status/2040627180808609890
自建了一个 autoresearch 工具,将 F1 分数提升了 10 个点。洞察是:一旦你有了 autoresearch,你还需要代码审查者和规划者,所以一个集成工具处理所有三个角色。循环本身是不够的,你需要围绕它的脚手架来防止多轮迭代中的质量退化。
#13
@analukach
https://x.com/analukach/status/2040927884123279670
将 autoresearch 与 Obsidian 中的知识数据库结合,使用"树状研究"变体。并行研究分支产出真正的洞察。声称它像人类大脑一样工作,跨分支记忆和交叉引用发现。这是 autoresearch 循环遇上个人知识管理,两个趋势碰撞,彼此增强。
https://x.com/analukach/status/2040927884123279670
将 autoresearch 与 Obsidian 中的知识数据库结合,使用"树状研究"变体。并行研究分支产出真正的洞察。声称它像人类大脑一样工作,跨分支记忆和交叉引用发现。这是 autoresearch 循环遇上个人知识管理,两个趋势碰撞,彼此增强。
#14
@androolloyd
https://x.com/androolloyd/status/2040766790519726101
运行 Claude 对 Claude 的自动化流程做二进制逆向工程。完整的依赖图重建、逐字节扫描、痕迹分析。他说自己基本不参与过程,只是喝咖啡经营公司。这是过夜 agent 循环最字面意义上的版本,应用于一个通常需要专业人工专家的深度技术领域。
https://x.com/androolloyd/status/2040766790519726101
运行 Claude 对 Claude 的自动化流程做二进制逆向工程。完整的依赖图重建、逐字节扫描、痕迹分析。他说自己基本不参与过程,只是喝咖啡经营公司。这是过夜 agent 循环最字面意义上的版本,应用于一个通常需要专业人工专家的深度技术领域。
#15
@010Zaj
https://x.com/010Zaj/status/2040935530305912871
用 OpenClaw 运行 autoresearch,其中原生视频生成开启了数据可视化、实验结果动画和自动生成报告视频的可能。这将循环输出从文本和代码扩展到了多媒体,这对向非技术利益相关者传达结果很重要。
https://x.com/010Zaj/status/2040935530305912871
用 OpenClaw 运行 autoresearch,其中原生视频生成开启了数据可视化、实验结果动画和自动生成报告视频的可能。这将循环输出从文本和代码扩展到了多媒体,这对向非技术利益相关者传达结果很重要。
#16
@krishna18421
https://x.com/krishna18421/status/2040813984312619118
梳理了整个 Agentic AI 扩展栈:Skills 是"知道什么",MCP 是"怎么连接",Subagents 是"谁来干活",Hooks 是"什么时候自动化",CLAUDE.md 是"在哪里锚定",Plugins 是"怎么交付"。148 个赞和 3800 次曝光。这与其说是一个项目,不如说是一个心智模型,帮助理解 agent 循环在更广泛基础设施图景中的位置。
https://x.com/krishna18421/status/2040813984312619118
梳理了整个 Agentic AI 扩展栈:Skills 是"知道什么",MCP 是"怎么连接",Subagents 是"谁来干活",Hooks 是"什么时候自动化",CLAUDE.md 是"在哪里锚定",Plugins 是"怎么交付"。148 个赞和 3800 次曝光。这与其说是一个项目,不如说是一个心智模型,帮助理解 agent 循环在更广泛基础设施图景中的位置。
#17
@Dallenpyrah
https://x.com/Dallenpyrah/status/2040623813055086774
用 autoresearch 循环来减少代码库中的代码行数同时保持所有功能。每周至少做一次来驯服 slop。这是该模式最务实的应用:不是研究,不是优化,只是让 agent 过夜重构来保持代码库整洁。维护作为循环目标。
https://x.com/Dallenpyrah/status/2040623813055086774
用 autoresearch 循环来减少代码库中的代码行数同时保持所有功能。每周至少做一次来驯服 slop。这是该模式最务实的应用:不是研究,不是优化,只是让 agent 过夜重构来保持代码库整洁。维护作为循环目标。
#18
@paul_cal
https://x.com/paul_cal/status/2040716814976532530
使用在 git 中追踪的特定数量的 diff 方法加研究日志,或明确的本地时间截止日期来约束 autoresearch 运行。排队的消息要求 agent 继续运行直到条件满足。这是实用的循环卫生:没有清晰的停止条件,agent 循环要么过早退出,要么永远运行烧 token。技艺在于约束。
https://x.com/paul_cal/status/2040716814976532530
使用在 git 中追踪的特定数量的 diff 方法加研究日志,或明确的本地时间截止日期来约束 autoresearch 运行。排队的消息要求 agent 继续运行直到条件满足。这是实用的循环卫生:没有清晰的停止条件,agent 循环要么过早退出,要么永远运行烧 token。技艺在于约束。
📡 生态产品雷达
生态产品雷达
OpenClaw:开源 agent 平台,在多个循环场景中被提及。用于带 LEARNINGS.md 模式的自改进 agent 设置,现在支持原生视频生成用于 autoresearch 输出可视化。
Hermes:NousResearch 的开源 agent 框架。用作潜意识 agent 的路由层,连接本地 Qwen 和远程 ChatGPT。正在扩展以支持代码优化之外的通用研究任务。
Obsidian:个人知识管理工具,现在通过树状研究变体与 autoresearch 结合。并行研究分支加交叉引用为循环输出创建持久知识层。
Claude Code:在交易回测、二进制逆向工程和知识图谱构建中作为核心引擎出现。非 ML autoresearch 应用中最常被选择的 agent 运行时。
Codex:因对长时间运行循环的支持不佳被点名。几轮后就停止,迫使用户排队数百个单独步骤作为变通方案。构建者想要的和 Codex 支持的之间的差距是反复出现的挫折。
Neo4j:图数据库,用作 17 美元 autoresearch 知识架构运行的后端。证明了当优化目标是结构而非计算时,循环模式无需 GPU 基础设施也能工作。
Qwen:Qwen3.5 9B 在本地运行,作为潜意识 agent 创意生成管线的一部分。通过 Hermes 与远程模型配对,形成混合本地/云端设置。
Triton/CUDA:autokernel GPU 优化循环的目标输出格式。单次提示的 Triton FP4 矩阵乘法击败 CUTLASS,展示了保留/回滚模式在底层内核代码上能实现什么。
OpenClaw:开源 agent 平台,在多个循环场景中被提及。用于带 LEARNINGS.md 模式的自改进 agent 设置,现在支持原生视频生成用于 autoresearch 输出可视化。
Hermes:NousResearch 的开源 agent 框架。用作潜意识 agent 的路由层,连接本地 Qwen 和远程 ChatGPT。正在扩展以支持代码优化之外的通用研究任务。
Obsidian:个人知识管理工具,现在通过树状研究变体与 autoresearch 结合。并行研究分支加交叉引用为循环输出创建持久知识层。
Claude Code:在交易回测、二进制逆向工程和知识图谱构建中作为核心引擎出现。非 ML autoresearch 应用中最常被选择的 agent 运行时。
Codex:因对长时间运行循环的支持不佳被点名。几轮后就停止,迫使用户排队数百个单独步骤作为变通方案。构建者想要的和 Codex 支持的之间的差距是反复出现的挫折。
Neo4j:图数据库,用作 17 美元 autoresearch 知识架构运行的后端。证明了当优化目标是结构而非计算时,循环模式无需 GPU 基础设施也能工作。
Qwen:Qwen3.5 9B 在本地运行,作为潜意识 agent 创意生成管线的一部分。通过 Hermes 与远程模型配对,形成混合本地/云端设置。
Triton/CUDA:autokernel GPU 优化循环的目标输出格式。单次提示的 Triton FP4 矩阵乘法击败 CUTLASS,展示了保留/回滚模式在底层内核代码上能实现什么。
评论