Loop 日报: 2026-05-10
#1
5月8日是autoresearch从Karpathy的demo毕业到生产经济论证的一天。Cursor的SDK发布了/orchestrate,agent递归spawn并行子agent,Cursor自己在内部auto-research管线上拿到20%的token削减。OpenAI的Codex拿到了hooks支持——在agentic loop中间注入自己脚本的扩展点,跟Claude Code最早ship的是同一种模式。一个Kaggle选手告诉世界,GPT-5.5的推理偶尔会"失态、对烂实验软发飙",同时auto-research agent正在向Kaggle gold爬升。Razorpay的首席架构师写了上千字解释agentic loop是简单部分——难的部分是在真实负载下做生产级。Andrej Karpathy的autoresearch repo越过了7.9万星,社区把它横向移植到交易、凝聚态物理、演化经济学,现在是landing page文案。
#2
@4DRp0iHGeKdYH0T
https://x.com/4DRp0iHGeKdYH0T/status/2052990115769979308
Codex /goal autoresearch会话,全receipt。15小时runtime、$500+ API消耗、90+次提交产出。报告说CI失败把他的邮箱炸穿。这就是2026年"AI overlord"的真实硬件形状——通宵和通日的自主算力花在单个工单上,人的成本是邮件分诊,不是写代码。
https://x.com/4DRp0iHGeKdYH0T/status/2052990115769979308
Codex /goal autoresearch会话,全receipt。15小时runtime、$500+ API消耗、90+次提交产出。报告说CI失败把他的邮箱炸穿。这就是2026年"AI overlord"的真实硬件形状——通宵和通日的自主算力花在单个工单上,人的成本是邮件分诊,不是写代码。
#3
@kibubble_de
https://x.com/kibubble_de/status/2053027538620813626
Cursor SDK拿到/orchestrate。Agent递归spawn并行子agent,结果回传。Cursor自己内部的auto-research管线见到20%的token削减、80%的backend cold start削减。框架严苛:单agent loop现在是legacy。发loop架构的供应商也在自己头上先跑这套架构。
https://x.com/kibubble_de/status/2053027538620813626
Cursor SDK拿到/orchestrate。Agent递归spawn并行子agent,结果回传。Cursor自己内部的auto-research管线见到20%的token削减、80%的backend cold start削减。框架严苛:单agent loop现在是legacy。发loop架构的供应商也在自己头上先跑这套架构。
#4
@moshuishapaozi
https://x.com/moshuishapaozi/status/2053038149107056883
为美股研究搭建auto-research框架。多agent对抗:一个负责赛道研究和调度,一个跑评测和挑错,每只股票单开一个agent调用用户存的stock-analysis Skill。硬规则:赛道评测循环到通过、所有候选都要逐股独立研究、每只股票至少30+来源、单股报告要轻评、不合格就重跑。说基础脑力劳动价值在快速下降,但人的脑力消耗反而上升,因为loop能分析的机会宇宙一下子炸开了。
https://x.com/moshuishapaozi/status/2053038149107056883
为美股研究搭建auto-research框架。多agent对抗:一个负责赛道研究和调度,一个跑评测和挑错,每只股票单开一个agent调用用户存的stock-analysis Skill。硬规则:赛道评测循环到通过、所有候选都要逐股独立研究、每只股票至少30+来源、单股报告要轻评、不合格就重跑。说基础脑力劳动价值在快速下降,但人的脑力消耗反而上升,因为loop能分析的机会宇宙一下子炸开了。
#5
@ar0cket1
https://x.com/ar0cket1/status/2052979876546887726
Codex /goal是产品里最好的功能。长horizon任务、10小时自主跑,关键的是"/goal修复了Codex之前的auto research问题"。这是缺的拼图——/goal落地之前,Codex跑几轮就停,需要手动排队。这条receipt是用户侧确认loop终止逻辑现在足够稳定,可以为10小时任务下注。
https://x.com/ar0cket1/status/2052979876546887726
Codex /goal是产品里最好的功能。长horizon任务、10小时自主跑,关键的是"/goal修复了Codex之前的auto research问题"。这是缺的拼图——/goal落地之前,Codex跑几轮就停,需要手动排队。这条receipt是用户侧确认loop终止逻辑现在足够稳定,可以为10小时任务下注。
#6
@flock_io
https://x.com/flock_io/status/2053023203233271913
Dable的Logan Kang在韩国AI session上展示Auto Research——agentic AI帮团队把研究更快变成可重复的真实世界测试。韩国企业把autoresearch想法产品化是二阶导信号:不只是Twitter形态,而是一家真实公司的企业项目。
https://x.com/flock_io/status/2053023203233271913
Dable的Logan Kang在韩国AI session上展示Auto Research——agentic AI帮团队把研究更快变成可重复的真实世界测试。韩国企业把autoresearch想法产品化是二阶导信号:不只是Twitter形态,而是一家真实公司的企业项目。
#7
@AINativeF
https://x.com/AINativeF/status/2052900413301776562
论文drop:"Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes"(Ning, Li, Zeng, Kang, Xiong)。专家agent创建带代码编辑和评估的trial,在可审计的轨迹上迭代。Receipt:在Parameter Golf validation、NanoChat-D12 CORE、CIFAR-10 Airbench96 wallclock上无人工提议无人工干预的显著改进。pi-autoresearch的学术版正在出版。
https://x.com/AINativeF/status/2052900413301776562
论文drop:"Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes"(Ning, Li, Zeng, Kang, Xiong)。专家agent创建带代码编辑和评估的trial,在可审计的轨迹上迭代。Receipt:在Parameter Golf validation、NanoChat-D12 CORE、CIFAR-10 Airbench96 wallclock上无人工提议无人工干预的显著改进。pi-autoresearch的学术版正在出版。
#8
@JeremyNguyenPhD
https://x.com/JeremyNguyenPhD/status/2053082260132573517
"我让3个AI agent单独面对一个研究问题过夜。它们带回了72篇同行评议论文。"引自University of Minnesota的Prof Jie Ding,开源WorldSeed autoresearch组合框架。Receipt在单位上:72篇真实的同行评议论文被自主loop找到并分诊,不是单个对话输出,不是合成的实验数。
https://x.com/JeremyNguyenPhD/status/2053082260132573517
"我让3个AI agent单独面对一个研究问题过夜。它们带回了72篇同行评议论文。"引自University of Minnesota的Prof Jie Ding,开源WorldSeed autoresearch组合框架。Receipt在单位上:72篇真实的同行评议论文被自主loop找到并分诊,不是单个对话输出,不是合成的实验数。
#9
@arpit_bhayani
https://x.com/arpit_bhayani/status/2053091711698768357
Razorpay首席架构师讲生产agentic系统。Agentic loop是简单部分。能扩展的是系统设计——微服务、消息队列、一致性保障、负载均衡、工作分发、状态管理、限流、节流、降级、服务到服务通信、QoS。原型代码和生产代码的差距是15个组件和1000次提交。这是最接近企业声音的人公开说出:聊天→agent的转型是分布式系统问题,不是AI问题。
https://x.com/arpit_bhayani/status/2053091711698768357
Razorpay首席架构师讲生产agentic系统。Agentic loop是简单部分。能扩展的是系统设计——微服务、消息队列、一致性保障、负载均衡、工作分发、状态管理、限流、节流、降级、服务到服务通信、QoS。原型代码和生产代码的差距是15个组件和1000次提交。这是最接近企业声音的人公开说出:聊天→agent的转型是分布式系统问题,不是AI问题。
#10
@8teAPi
https://x.com/8teAPi/status/2053025212653076602
跑Claude Code Opus 4.7做规划和评审 + GPT 5.5 high在Codex里做执行,作为完整规模的agentic loop。报告说"震撼"——一旦项目结构和脚手架对了。双模型架构现在是稳定模式——一个模型挑动作,另一个模型执行。
https://x.com/8teAPi/status/2053025212653076602
跑Claude Code Opus 4.7做规划和评审 + GPT 5.5 high在Codex里做执行,作为完整规模的agentic loop。报告说"震撼"——一旦项目结构和脚手架对了。双模型架构现在是稳定模式——一个模型挑动作,另一个模型执行。
#11
@kylejeong
https://x.com/kylejeong/status/2052873208668524917
OpenClaw + Autobrowse迭代式构建任意浏览器工作流的Skill。Craigslist抽取例子:5次迭代实现68%加速和91%成本节省。中途,agent发现了一个暴露的endpoint,用它完全跳过了页面导航。这是迄今"Skill编译即autoresearch"最具体的展示——loop不只是优化,它发现了人类会错过的策略。
https://x.com/kylejeong/status/2052873208668524917
OpenClaw + Autobrowse迭代式构建任意浏览器工作流的Skill。Craigslist抽取例子:5次迭代实现68%加速和91%成本节省。中途,agent发现了一个暴露的endpoint,用它完全跳过了页面导航。这是迄今"Skill编译即autoresearch"最具体的展示——loop不只是优化,它发现了人类会错过的策略。
#12
@testingcatalog
https://x.com/testingcatalog/status/2052882191940534531
Hooks支持要来Codex app了。Hooks是扩展框架,让你在agentic loop里注入自己的脚本。战略点:Claude Code最先ship hooks,IDE-agent的差异化现在活在hooks层不是模型替换。Codex在这个维度跟上比模型规格之争更重要,因为hooks是团队真正定制行为的地方。
https://x.com/testingcatalog/status/2052882191940534531
Hooks支持要来Codex app了。Hooks是扩展框架,让你在agentic loop里注入自己的脚本。战略点:Claude Code最先ship hooks,IDE-agent的差异化现在活在hooks层不是模型替换。Codex在这个维度跟上比模型规格之争更重要,因为hooks是团队真正定制行为的地方。
#13
@MinLiBuilds
https://x.com/MinLiBuilds/status/2052188818137330043
Anthropic的beta功能在SpaceX算力合作落地之后变真了。三个:Dreaming(记忆整理函数)、Outcomes(Anthropic把Codex /goal产品化的版本——autoresearch包装成任务完成保证)、Multiagent(主控agent按需spawn多agent处理复杂任务)。用户半自嘲——他刚手搓了一个CC版本的/goal轮子,官方就出了。
https://x.com/MinLiBuilds/status/2052188818137330043
Anthropic的beta功能在SpaceX算力合作落地之后变真了。三个:Dreaming(记忆整理函数)、Outcomes(Anthropic把Codex /goal产品化的版本——autoresearch包装成任务完成保证)、Multiagent(主控agent按需spawn多agent处理复杂任务)。用户半自嘲——他刚手搓了一个CC版本的/goal轮子,官方就出了。
#14
@aiwithmayank
https://x.com/aiwithmayank/status/2046914454353510893
Karpathy autoresearch每个分叉的目录在一个地方。macOS Apple Silicon端口。Windows RTX消费级NVIDIA端口。WebGPU浏览器端口。多GPU+崩溃恢复。Colab/Kaggle T4免费端口。横向应用:交易agent优化prompt对照rolling Sharpe ratio而非model loss、家谱研究者迭代展开家族史、Spring Boot服务在5个自主周期里从119行长到950行。原始想法——给AI一个指标、让它自我改进直到赢——在任何有可测量目标的事情上都管用。
https://x.com/aiwithmayank/status/2046914454353510893
Karpathy autoresearch每个分叉的目录在一个地方。macOS Apple Silicon端口。Windows RTX消费级NVIDIA端口。WebGPU浏览器端口。多GPU+崩溃恢复。Colab/Kaggle T4免费端口。横向应用:交易agent优化prompt对照rolling Sharpe ratio而非model loss、家谱研究者迭代展开家族史、Spring Boot服务在5个自主周期里从119行长到950行。原始想法——给AI一个指标、让它自我改进直到赢——在任何有可测量目标的事情上都管用。
#15
@samhogan
https://x.com/samhogan/status/2049619541727302040
HALO(Hierarchical Agent Loop Optimizer)开源。基于RLM的递归自我改进,分析执行trace并提议harness改动。AppWorld benchmark Sonnet 4.6上的结果:73.7→89.5,+15.8分。反馈表面包括幻觉的工具调用、冗余参数、拒绝循环、语义正确性——每个问题都干净映射到一个prompt更新。然后他们把这些发现喂给Cursor(Opus 4.6),让coding agent更新底层harness。重复trace→HALO-RLM分析→代码更新的loop直到分数饱和。这是元loop:一个AI改进另一个AI的harness,用第三个AI写补丁。
https://x.com/samhogan/status/2049619541727302040
HALO(Hierarchical Agent Loop Optimizer)开源。基于RLM的递归自我改进,分析执行trace并提议harness改动。AppWorld benchmark Sonnet 4.6上的结果:73.7→89.5,+15.8分。反馈表面包括幻觉的工具调用、冗余参数、拒绝循环、语义正确性——每个问题都干净映射到一个prompt更新。然后他们把这些发现喂给Cursor(Opus 4.6),让coding agent更新底层harness。重复trace→HALO-RLM分析→代码更新的loop直到分数饱和。这是元loop:一个AI改进另一个AI的harness,用第三个AI写补丁。
#16
@ShenHuang
https://x.com/ShenHuang/status/2043469166418735204
花了几亿token调一个race condition。失败。后来借鉴Karpathy auto-research加了一句话:"把所有假设和证据写到DEBUG.md。"AI列了5个假设。第3个没有任何反对证据。3行实验、根因确认、5分钟修完。蛮干浪费的token比最后修bug多了1000倍。四条debug规则:改代码之前先列假设、每次实验最多改5行、所有证据写文件(防上下文压缩丢推理链)、同一方向失败2次强制换假设。
https://x.com/ShenHuang/status/2043469166418735204
花了几亿token调一个race condition。失败。后来借鉴Karpathy auto-research加了一句话:"把所有假设和证据写到DEBUG.md。"AI列了5个假设。第3个没有任何反对证据。3行实验、根因确认、5分钟修完。蛮干浪费的token比最后修bug多了1000倍。四条debug规则:改代码之前先列假设、每次实验最多改5行、所有证据写文件(防上下文压缩丢推理链)、同一方向失败2次强制换假设。
#17
@ShopifyEng
https://x.com/ShopifyEng/status/2044477537200550383
开源pi-autoresearch后,Shopify团队在所有东西上跑它。Receipt:单元测试300倍快。React组件挂载20%快。CI构建时间砍65%。pnpm变快。框架:autoresearch不会停止尝试你没时间尝试的东西。这是真公司在autoresearch loop价值上的少数硬生产经济数字之一。
https://x.com/ShopifyEng/status/2044477537200550383
开源pi-autoresearch后,Shopify团队在所有东西上跑它。Receipt:单元测试300倍快。React组件挂载20%快。CI构建时间砍65%。pnpm变快。框架:autoresearch不会停止尝试你没时间尝试的东西。这是真公司在autoresearch loop价值上的少数硬生产经济数字之一。
#18
@sudoingX
https://x.com/sudoingX/status/2052361613651701933
工具使用benchmark v1的诚实测试结论:单个happy-path任务区分不出两种胜任的agentic风格。原生qwen 3.6用12次工具调用vs carnice-v2的19次完成任务,11:37 vs 12:23完成,但每条消息生成更多推理、100%消息发推理vs carnice的71%。v2 bench要变难:对抗场景、中途工具失败注入、多步orchestration带破损中间状态、每模型3次跑做方差捕获、更难的任务。这是真在跑agent loop trial的人对自家benchmark的真实卫生。
https://x.com/sudoingX/status/2052361613651701933
工具使用benchmark v1的诚实测试结论:单个happy-path任务区分不出两种胜任的agentic风格。原生qwen 3.6用12次工具调用vs carnice-v2的19次完成任务,11:37 vs 12:23完成,但每条消息生成更多推理、100%消息发推理vs carnice的71%。v2 bench要变难:对抗场景、中途工具失败注入、多步orchestration带破损中间状态、每模型3次跑做方差捕获、更难的任务。这是真在跑agent loop trial的人对自家benchmark的真实卫生。
#19
@grapeot
https://x.com/grapeot/status/2051734189054255164
过去2年AI工具最大的变化不是prompt复杂度——而是脚手架在被商品化。Prompt工程技巧被模型吸收。Agent loop、文件/shell访问、测试反馈、上下文压缩成了Claude Code/Codex/Cursor/OpenCode的runtime功能。剩下值得自己维护的:domain context、eval、权限边界、质量标准、判断框架。工作在从执行迁到边界判断。
https://x.com/grapeot/status/2051734189054255164
过去2年AI工具最大的变化不是prompt复杂度——而是脚手架在被商品化。Prompt工程技巧被模型吸收。Agent loop、文件/shell访问、测试反馈、上下文压缩成了Claude Code/Codex/Cursor/OpenCode的runtime功能。剩下值得自己维护的:domain context、eval、权限边界、质量标准、判断框架。工作在从执行迁到边界判断。
#20
@TeksCreate
https://x.com/TeksCreate/status/2053151671966986735
DeepClaude开源:跑Claude Code的agent loop但用DeepSeek V4 Pro替代Anthropic。便宜17倍。保留多步推理、文件操作、调试。已经在跑deepseek-v4-pro?今天就能这么干。Loop现在跨provider可移植——harness ship、模型在配置层换。
https://x.com/TeksCreate/status/2053151671966986735
DeepClaude开源:跑Claude Code的agent loop但用DeepSeek V4 Pro替代Anthropic。便宜17倍。保留多步推理、文件操作、调试。已经在跑deepseek-v4-pro?今天就能这么干。Loop现在跨provider可移植——harness ship、模型在配置层换。
#21
@sentient_agency
https://x.com/sentient_agency/status/2045065544668528870
MiniCode发布——Claude Code的开源孪生,同样的agent loop、工具模型、TUI架构,为了被理解而构建。复制集合:model→tool→model loop、写之前review带统一diff、stdio动态MCP、SKILL.md本地skill、reject带guidance在loop中段推回纠正指令、单字符串调用的run_command、显式后台shell任务。TypeScript参考+Rust+Python实现。MIT。
https://x.com/sentient_agency/status/2045065544668528870
MiniCode发布——Claude Code的开源孪生,同样的agent loop、工具模型、TUI架构,为了被理解而构建。复制集合:model→tool→model loop、写之前review带统一diff、stdio动态MCP、SKILL.md本地skill、reject带guidance在loop中段推回纠正指令、单字符串调用的run_command、显式后台shell任务。TypeScript参考+Rust+Python实现。MIT。
#22
@OpenAIDevs
https://x.com/OpenAIDevs/status/2044466729712304613
让长时间agent保持在轨的harness。在工具、上下文、trace上管理agent loop。Sandbox在暂停、重试、恢复之间保留工作状态。作为生产级基础设施发布,不是玩具。这种模式现在主流到OpenAI把harness作为一等artifact ship,跟模型并列。
https://x.com/OpenAIDevs/status/2044466729712304613
让长时间agent保持在轨的harness。在工具、上下文、trace上管理agent loop。Sandbox在暂停、重试、恢复之间保留工作状态。作为生产级基础设施发布,不是玩具。这种模式现在主流到OpenAI把harness作为一等artifact ship,跟模型并列。
#23
@m13v_
https://x.com/m13v_/status/2052940134077898852
Hooks悄悄是agentic loop里最被低估的部分。Claude Code最先ship;IDE-agent的差异化现在活在hooks层不是模型替换。这条论证重要因为它把AI开发工具之战重新框成harness之战,不是模型之战。
https://x.com/m13v_/status/2052940134077898852
Hooks悄悄是agentic loop里最被低估的部分。Claude Code最先ship;IDE-agent的差异化现在活在hooks层不是模型替换。这条论证重要因为它把AI开发工具之战重新框成harness之战,不是模型之战。
#24
@m13v_
https://x.com/m13v_/status/2053123934435029047
生产里agentic loop的难点不是loop——是回归长尾。当一个工具API周二悄悄改了响应形状你的eval分数怎么办?大多数团队跳过真正的eval harness,只在生产捕到。这是同一天里第二个声音论证生产agent可靠性是eval问题不是架构问题。
https://x.com/m13v_/status/2053123934435029047
生产里agentic loop的难点不是loop——是回归长尾。当一个工具API周二悄悄改了响应形状你的eval分数怎么办?大多数团队跳过真正的eval harness,只在生产捕到。这是同一天里第二个声音论证生产agent可靠性是eval问题不是架构问题。
#25
@mylifcc
https://x.com/mylifcc/status/2053100765674365070
Agentic loop是简单部分。咬人的不是错误的工具输出——是loop重试已经成功的工具,或检索3轮后漂移。Demo里不出现但杀生产部署的具体失败模式。值得保存因为每个搭多步agent的团队都会撞这堵墙。
https://x.com/mylifcc/status/2053100765674365070
Agentic loop是简单部分。咬人的不是错误的工具输出——是loop重试已经成功的工具,或检索3轮后漂移。Demo里不出现但杀生产部署的具体失败模式。值得保存因为每个搭多步agent的团队都会撞这堵墙。
#26
@RoundtableSpace
https://x.com/RoundtableSpace/status/2047325872986755482
/autobrowse skill灵感来自Karpathy的autoresearch harness。给agent任意网页任务——它探索页面、从失败尝试中学习、迭代直到找到可靠工作流。每次跑都自动变更聪明。pi-autoresearch的下游但专门用于浏览器自动化。
https://x.com/RoundtableSpace/status/2047325872986755482
/autobrowse skill灵感来自Karpathy的autoresearch harness。给agent任意网页任务——它探索页面、从失败尝试中学习、迭代直到找到可靠工作流。每次跑都自动变更聪明。pi-autoresearch的下游但专门用于浏览器自动化。
#27
@romovpa
https://x.com/romovpa/status/2037193952357413058
Autoresearch可以发现LLM的SOTA白盒对抗攻击。给Claude 30+个现有的GCG风格算法和算力集群。Claude很快学会把它们组合成新方法,超越所有现有的。应用让人不安——autoresearch loop应用到攻击安全研究上比防守者打补丁还快地发现新攻击。
https://x.com/romovpa/status/2037193952357413058
Autoresearch可以发现LLM的SOTA白盒对抗攻击。给Claude 30+个现有的GCG风格算法和算力集群。Claude很快学会把它们组合成新方法,超越所有现有的。应用让人不安——autoresearch loop应用到攻击安全研究上比防守者打补丁还快地发现新攻击。
#28
@iuditg
https://x.com/iuditg/status/2033370760690233573
她的Autoresearch分叉发布3天500+星。Karpathy原作周围社区构建的生态系统现在是变体的小型经济,每个调成一个领域或硬件约束。
https://x.com/iuditg/status/2033370760690233573
她的Autoresearch分叉发布3天500+星。Karpathy原作周围社区构建的生态系统现在是变体的小型经济,每个调成一个领域或硬件约束。
#29
@jingwangtalk
https://x.com/jingwangtalk/status/2053006361596710945
Atari benchmark反转:不是训练RL策略最大化奖励,而是让Codex auto-research一个最大化Atari游戏分数的规则程序。作者读:这种形状的autoresearch是启发式学习+搜索,跟运筹优化几十年前的tabu/genetic/particle swarm是同一思路。Karpathy的"human-out-of-loop"框架是同一个赌注:设计好的harness+可验证奖励,让agent搜索。
https://x.com/jingwangtalk/status/2053006361596710945
Atari benchmark反转:不是训练RL策略最大化奖励,而是让Codex auto-research一个最大化Atari游戏分数的规则程序。作者读:这种形状的autoresearch是启发式学习+搜索,跟运筹优化几十年前的tabu/genetic/particle swarm是同一思路。Karpathy的"human-out-of-loop"框架是同一个赌注:设计好的harness+可验证奖励,让agent搜索。
#30
@AnnikaSays via @petergyang
https://x.com/AnnikaSays/status/2052779293349224932
"我几乎所有聊天形态的工作现在都在Claude Code里发生。"为什么:本机上的上下文让同一类型的交流给出10倍可用输出。Agentic loop赢不是因为模型变聪明了,是因为周围状态让同一个模型干有用的活。
https://x.com/AnnikaSays/status/2052779293349224932
"我几乎所有聊天形态的工作现在都在Claude Code里发生。"为什么:本机上的上下文让同一类型的交流给出10倍可用输出。Agentic loop赢不是因为模型变聪明了,是因为周围状态让同一个模型干有用的活。
#31
@MemoriaDA_
https://x.com/MemoriaDA_/status/2052653191863369935
Agent记忆持久化的开源基础设施——agent重启就忘光了,MemoriaDA把agent记忆存在0G storage上锚定上链。规模化的agentic loop需要能撑过重启的、可审计的记忆;替代方案是失忆的agent每次会话重新推导上下文。
https://x.com/MemoriaDA_/status/2052653191863369935
Agent记忆持久化的开源基础设施——agent重启就忘光了,MemoriaDA把agent记忆存在0G storage上锚定上链。规模化的agentic loop需要能撑过重启的、可审计的记忆;替代方案是失忆的agent每次会话重新推导上下文。
📡 生态产品雷达
生态产品雷达
#32
今天autoresearch和agentic loop讨论里出现3+次的工具/产品:
pi-autoresearch / Karpathy autoresearch (40+) — 大家都在fork、应用、对照的参考实现。
Claude Code (50+) — 大多数autoresearch实验加层之上的harness,也是生产基准最被引用的agent loop。
Codex / OpenAI Codex (30+) — 并行执行的对手,5月8日 /goal功能明确关闭了autoresearch的差距。
Cursor (10+) — /orchestrate SDK发布递归agent spawn和具体生产receipt。
DeepSeek V4 Pro (10+) — 廉价agentic loop的模型替换目标;DeepClaude把Claude Code harness配上DS V4。
OpenClaw (15+) — autoresearch实验的开源agent runtime,Autobrowse Skill是当天的具体receipt。
WorldSeed (5+) — 一夜之间从3个agent返回72篇同行评议论文的autoresearch组合框架。
HALO / HALO-RLM (5+) — 递归自我改进框架,用harness trace分析在AppWorld加+15.8分。
DeepClaude (3+) — Claude Code agent loop跑在DeepSeek V4上,号称17倍成本削减。
MiniCode (3+) — 开源Claude Code孪生,从源码理解架构。
Hooks (15+) — 扩展原语,Claude Code发布,现在Codex也在跟。
MCP / Model Context Protocol (10+) — 今天每个harness对话之下的集成层。
Skills / SKILL.md (15+) — 可复用agentic专长的单元,越来越是autoresearch loop产出的artifact。
Stagehand (5+) — 浏览器侧抽象层让agent loop在网页自动化上不那么脆弱。
Polymarket (5+) — 交易agent的autoresearch loop最被引用的市场场所。
Shopify (5+) — pi-autoresearch内部使用引用了硬生产数字。
pi-autoresearch / Karpathy autoresearch (40+) — 大家都在fork、应用、对照的参考实现。
Claude Code (50+) — 大多数autoresearch实验加层之上的harness,也是生产基准最被引用的agent loop。
Codex / OpenAI Codex (30+) — 并行执行的对手,5月8日 /goal功能明确关闭了autoresearch的差距。
Cursor (10+) — /orchestrate SDK发布递归agent spawn和具体生产receipt。
DeepSeek V4 Pro (10+) — 廉价agentic loop的模型替换目标;DeepClaude把Claude Code harness配上DS V4。
OpenClaw (15+) — autoresearch实验的开源agent runtime,Autobrowse Skill是当天的具体receipt。
WorldSeed (5+) — 一夜之间从3个agent返回72篇同行评议论文的autoresearch组合框架。
HALO / HALO-RLM (5+) — 递归自我改进框架,用harness trace分析在AppWorld加+15.8分。
DeepClaude (3+) — Claude Code agent loop跑在DeepSeek V4上,号称17倍成本削减。
MiniCode (3+) — 开源Claude Code孪生,从源码理解架构。
Hooks (15+) — 扩展原语,Claude Code发布,现在Codex也在跟。
MCP / Model Context Protocol (10+) — 今天每个harness对话之下的集成层。
Skills / SKILL.md (15+) — 可复用agentic专长的单元,越来越是autoresearch loop产出的artifact。
Stagehand (5+) — 浏览器侧抽象层让agent loop在网页自动化上不那么脆弱。
Polymarket (5+) — 交易agent的autoresearch loop最被引用的市场场所。
Shopify (5+) — pi-autoresearch内部使用引用了硬生产数字。
评论