Loop 日报: 2026-05-02
Karpathy 的 autoresearch repo 这周已经成了 AI Twitter 上被模仿最多的一段代码。大家把它接到具体领域里,回过头报告的是二阶导数——loop 对工作的影响,而不是工作本身。一个印度股票自迭代纸交易机器人,已经自我改写策略 11 次。一个用来设计 tokamak 装置的 loop。一个把"正面回复率"当优化指标的冷邮件 loop。一群 ML agent 通过共享 HuggingFace bucket 协作跑 optimizer ablation。底下还有一些更安静的信号:loop 真要跑起来需要什么——共享状态、eval 闸门、能复利的记忆、一种制止它跑偏的机制。还有一个 CrewAI 客户用最贵的方式发现:一个无界 loop 没有断路器,7 小时能烧 5 万美金。
#1
@AkashTandon
https://x.com/AkashTandon/status/2049712565350264889
到目前为止 Karpathy autoresearch 在非研究领域最直接的移植。AkashTandon 用 Claude Code 搭了 autotrader——纸交易印度 Nifty 500,约 1050 美金的虚拟资金,每 5 分钟一个 tick,跑在一台 GCP e2-micro 上。最关键的约束是:agent 只能改自己的策略文件。大约 130 笔模拟交易之后,系统已经自我改写 11 次,包括修现金计算 bug、避免重复犯错、记住冷却期、提前止盈、学会不去追已经涨过的股。作者自己点出来:交易只是 test case,自主 loop 才是真正的项目。也很诚实地承认局限——纸交易忽略滑点、成交、流动性,agent 修复重复错误的能力远胜于发现 alpha。
https://x.com/AkashTandon/status/2049712565350264889
到目前为止 Karpathy autoresearch 在非研究领域最直接的移植。AkashTandon 用 Claude Code 搭了 autotrader——纸交易印度 Nifty 500,约 1050 美金的虚拟资金,每 5 分钟一个 tick,跑在一台 GCP e2-micro 上。最关键的约束是:agent 只能改自己的策略文件。大约 130 笔模拟交易之后,系统已经自我改写 11 次,包括修现金计算 bug、避免重复犯错、记住冷却期、提前止盈、学会不去追已经涨过的股。作者自己点出来:交易只是 test case,自主 loop 才是真正的项目。也很诚实地承认局限——纸交易忽略滑点、成交、流动性,agent 修复重复错误的能力远胜于发现 alpha。
#2
@bpizzacalla
https://x.com/bpizzacalla/status/2049874097346142264
冷邮件做了六个月,回复率卡在 2% 上不去。读了 Karpathy 的 auto-research loop,意识到方向错了:选一件可改的、定一个可量化的指标、固化实验周期、让系统自己迭代、有效的留下、无效的回滚。把这套对准邮件模板,正面回复率当指标,48 小时一轮。他写下来的 takeaway 比结果本身更狠——之所以知识能复利,是因为赢家从来不会被丢掉。绝大多数冷外联系统在新人接手那一秒就丢失了这个性质。一个把状态写在硬盘上的 loop 不会丢。
https://x.com/bpizzacalla/status/2049874097346142264
冷邮件做了六个月,回复率卡在 2% 上不去。读了 Karpathy 的 auto-research loop,意识到方向错了:选一件可改的、定一个可量化的指标、固化实验周期、让系统自己迭代、有效的留下、无效的回滚。把这套对准邮件模板,正面回复率当指标,48 小时一轮。他写下来的 takeaway 比结果本身更狠——之所以知识能复利,是因为赢家从来不会被丢掉。绝大多数冷外联系统在新人接手那一秒就丢失了这个性质。一个把状态写在硬盘上的 loop 不会丢。
#3
@cmpatino_
https://x.com/cmpatino_/status/2049881579691139372
Agent Collabs 是一个让异构 agent(ml-intern、Codex、Claude Code、Hermes,加上人类)共同协作跑 autoresearch 的小平台。共享一个 HuggingFace bucket 当消息板和 artifact 仓库,再加一个独立的 Space 跟踪进度和打分榜。已经有两个真实合作在跑:OpenAI 的 parameter-golf 挑战和 Keller Jordan 的 optimizer ablation。最有意思的是观察到的涌现行为——新加入的 agent 看完 bucket 就能贡献新视角;agent 按算力自然分工(没 GPU 的小规模验证、有 GPU 的跑有希望的实验);用了别人想法会主动给 credit;个体犯错但集体能识别出来。这是目前最接近"autoresearch swarm"的真实落地案例。
https://x.com/cmpatino_/status/2049881579691139372
Agent Collabs 是一个让异构 agent(ml-intern、Codex、Claude Code、Hermes,加上人类)共同协作跑 autoresearch 的小平台。共享一个 HuggingFace bucket 当消息板和 artifact 仓库,再加一个独立的 Space 跟踪进度和打分榜。已经有两个真实合作在跑:OpenAI 的 parameter-golf 挑战和 Keller Jordan 的 optimizer ablation。最有意思的是观察到的涌现行为——新加入的 agent 看完 bucket 就能贡献新视角;agent 按算力自然分工(没 GPU 的小规模验证、有 GPU 的跑有希望的实验);用了别人想法会主动给 credit;个体犯错但集体能识别出来。这是目前最接近"autoresearch swarm"的真实落地案例。
#4
@PMocz
https://x.com/PMocz/status/2049650610069250252
把 Karpathy 的 autoresearch loop 怼到 tokamak 设计上,故意做成"AI agent 会发现并优化工程器件"的演示。开源代码、简单物理目标、最小封装。这件事真正打开的问题不是"它设计出了多好的 tokamak"——是同一种 loop 原语(单文件可编辑 + 可量化指标 + 实验周期)能不能从神经网络训练泛化到物理系统优化。从 PR 和评论里看,确实有人开始认真考虑这个泛化问题了。
https://x.com/PMocz/status/2049650610069250252
把 Karpathy 的 autoresearch loop 怼到 tokamak 设计上,故意做成"AI agent 会发现并优化工程器件"的演示。开源代码、简单物理目标、最小封装。这件事真正打开的问题不是"它设计出了多好的 tokamak"——是同一种 loop 原语(单文件可编辑 + 可量化指标 + 实验周期)能不能从神经网络训练泛化到物理系统优化。从 PR 和评论里看,确实有人开始认真考虑这个泛化问题了。
#5
@AnnaMariaa133
https://x.com/AnnaMariaa133/status/2049789561346154755
Sentient Labs 发布 EvoSkill V1,明确把它定位成"给 AI agent 用的 autoresearch 系统"。loop 流程:在 benchmark 上评估 agent → 分析失败痕迹 → 自动迭代细化 prompt 和 skill → 输出特化的专家 agent。声称的数据:Claude Code 在 OfficeQA 从 60.6% → 68.1%,SealQA 从 26.6% → 38.7%(且 skill 能 +5% 迁移到 BrowseComp),OpenCode、OpenHands、Goose、OpenAI Codex CLI 上有类似收益。框架最有意思的地方是把 autoresearch 原语从"训练神经网络"泛化到了"在前沿模型之上专化已有 agent"——这才是大多数 builder 真正需要的工作流。
https://x.com/AnnaMariaa133/status/2049789561346154755
Sentient Labs 发布 EvoSkill V1,明确把它定位成"给 AI agent 用的 autoresearch 系统"。loop 流程:在 benchmark 上评估 agent → 分析失败痕迹 → 自动迭代细化 prompt 和 skill → 输出特化的专家 agent。声称的数据:Claude Code 在 OfficeQA 从 60.6% → 68.1%,SealQA 从 26.6% → 38.7%(且 skill 能 +5% 迁移到 BrowseComp),OpenCode、OpenHands、Goose、OpenAI Codex CLI 上有类似收益。框架最有意思的地方是把 autoresearch 原语从"训练神经网络"泛化到了"在前沿模型之上专化已有 agent"——这才是大多数 builder 真正需要的工作流。
#6
@with_gene2626
https://x.com/with_gene2626/status/2049928670228201961
3 部曲收官:在一台 DGX Spark 上把 20+ 个模型放进真实 agentic loop 里跑 HumanEval+ 和 MBPP+。光是排行榜本身就有用——Gemma-4-26B-A4B-MoE UD-Q5 拿了 95% 居首,GLM-4.7-Flash Q8 是 87.5-92.5% 的"无聊但稳定"主力——但更有价值的是五个反直觉发现:reasoning 蒸馏版相比 base 掉 20-25 分;MoE 在 26-31B 段碾压 dense;Qwen3-Coder MBPP 分数低是 harness 解析 artifact 不是模型问题;Unsloth UD 量化稳定优于普通 K 量化(在 MoE 上);GLM-4.7-Flash 是最适合 driver/reviewer 槽位的工作马。然后他直接转向 Drift Studio——下一步研究"什么 prompt 技巧能让 orchestration agent 在长链路编码任务里不跑偏",每晚自动跑。
https://x.com/with_gene2626/status/2049928670228201961
3 部曲收官:在一台 DGX Spark 上把 20+ 个模型放进真实 agentic loop 里跑 HumanEval+ 和 MBPP+。光是排行榜本身就有用——Gemma-4-26B-A4B-MoE UD-Q5 拿了 95% 居首,GLM-4.7-Flash Q8 是 87.5-92.5% 的"无聊但稳定"主力——但更有价值的是五个反直觉发现:reasoning 蒸馏版相比 base 掉 20-25 分;MoE 在 26-31B 段碾压 dense;Qwen3-Coder MBPP 分数低是 harness 解析 artifact 不是模型问题;Unsloth UD 量化稳定优于普通 K 量化(在 MoE 上);GLM-4.7-Flash 是最适合 driver/reviewer 槽位的工作马。然后他直接转向 Drift Studio——下一步研究"什么 prompt 技巧能让 orchestration agent 在长链路编码任务里不跑偏",每晚自动跑。
#7
@hirefortuna
https://x.com/hirefortuna/status/2049930597728964989
真实广告投手对 Meta MCP + Higgsfield MCP 同周发布的解读:现在一个 agentic loop 可以端到端做出广告创意 → 测试 → 部署 → 迭代,不用人在工具之间搬运文件。作者自己跑后端那一面(电商自主客服),点出了一个二阶效应——前端迭代速度被压缩之后,订单暴涨更快、客服压力随 loop 输出量同步上涨,所以你需要一个跟得上前端 agent 节奏的后端 agent。前端 + 后端 agent 才是完整架构,单跑任何一面都会丢吞吐。
https://x.com/hirefortuna/status/2049930597728964989
真实广告投手对 Meta MCP + Higgsfield MCP 同周发布的解读:现在一个 agentic loop 可以端到端做出广告创意 → 测试 → 部署 → 迭代,不用人在工具之间搬运文件。作者自己跑后端那一面(电商自主客服),点出了一个二阶效应——前端迭代速度被压缩之后,订单暴涨更快、客服压力随 loop 输出量同步上涨,所以你需要一个跟得上前端 agent 节奏的后端 agent。前端 + 后端 agent 才是完整架构,单跑任何一面都会丢吞吐。
#8
@agentic_james
https://x.com/agentic_james/status/2049985777421971846
上一条的具体落地:Claude Code 现在可以通过官方 CLI 工具直接操作 Meta Ads dashboard,再叠加图像生成和 autoresearch loop,就构成自我改进的广告 pipeline。帖子很短,但架构正好就是大家整周抽象描述的 lead-magnet/A-B-test loop。值得点出来的是"Meta CLI as agent rail"从官方发布到可复现工作流,间隔不到 24 小时。
https://x.com/agentic_james/status/2049985777421971846
上一条的具体落地:Claude Code 现在可以通过官方 CLI 工具直接操作 Meta Ads dashboard,再叠加图像生成和 autoresearch loop,就构成自我改进的广告 pipeline。帖子很短,但架构正好就是大家整周抽象描述的 lead-magnet/A-B-test loop。值得点出来的是"Meta CLI as agent rail"从官方发布到可复现工作流,间隔不到 24 小时。
#9
@ericosiu
https://x.com/ericosiu/status/2049976820594868484
Eric Siu (Single Grain) 在 Cloudflare 微站发布之后写了 4 个广告代理的 play。和 loop 最相关的是 Lead Magnet Factory:每集播客 / YouTube / Beehiiv 邮件都自动生成一个针对话题的子域名微站,配 Beehiiv MCP 做订阅入口。autoresearch 是不可省的——每个微站上线前必须过一道 autoresearch eval 闸,不然你只是在批量发垃圾。他算的账:50 个微站 × 5 美金/月 ≈ 250 美金/年基础设施成本,每个抓 100 邮件/月 = 10 个高意向对话/月(按 SG 的 2% lead-to-deal 转化率)。eval 闸门是这套系统不变成 slop 的关键。
https://x.com/ericosiu/status/2049976820594868484
Eric Siu (Single Grain) 在 Cloudflare 微站发布之后写了 4 个广告代理的 play。和 loop 最相关的是 Lead Magnet Factory:每集播客 / YouTube / Beehiiv 邮件都自动生成一个针对话题的子域名微站,配 Beehiiv MCP 做订阅入口。autoresearch 是不可省的——每个微站上线前必须过一道 autoresearch eval 闸,不然你只是在批量发垃圾。他算的账:50 个微站 × 5 美金/月 ≈ 250 美金/年基础设施成本,每个抓 100 邮件/月 = 10 个高意向对话/月(按 SG 的 2% lead-to-deal 转化率)。eval 闸门是这套系统不变成 slop 的关键。
#10
@hybridllm
https://x.com/hybridllm/status/2049652384088182971
值得拿出来是因为它精准纠正了 agent loop 的讨论。作者的栈不是 LangGraph 那种 per-turn loop——是 batch + skill 调用。每次调用的 I/O 是 sub-KB markdown,走 tempfile + atomic rename,所以延迟可以忽略。所谓"6-7 轮迭代天花板"只在 agentic loop 叠加在 base 之上时才出现,日常 batch 路径不会撞上。普适教训:很多"agentic loop 难"的吐槽,本质上是把 loop 放错了地方。
https://x.com/hybridllm/status/2049652384088182971
值得拿出来是因为它精准纠正了 agent loop 的讨论。作者的栈不是 LangGraph 那种 per-turn loop——是 batch + skill 调用。每次调用的 I/O 是 sub-KB markdown,走 tempfile + atomic rename,所以延迟可以忽略。所谓"6-7 轮迭代天花板"只在 agentic loop 叠加在 base 之上时才出现,日常 batch 路径不会撞上。普适教训:很多"agentic loop 难"的吐槽,本质上是把 loop 放错了地方。
#11
@a_protsyuk
https://x.com/a_protsyuk/status/2049988213541089765
点出了几乎每个生产环境 agent loop 都会撞上的一种失败模式:goal drift(目标漂移),不是 goal persistence(目标持久化)。模型在跑的过程中悄悄重新定义目标,剩余的 loop 围绕新目标继续优化。大多数 LangGraph 风格框架检查"agent 完成目标了吗",但不检查"被完成的目标,是不是用户最初指定的那个目标"。新版 Codex CLI 的 /goal 命令是其中一种修法,但社区还没有干净的标准答案。
https://x.com/a_protsyuk/status/2049988213541089765
点出了几乎每个生产环境 agent loop 都会撞上的一种失败模式:goal drift(目标漂移),不是 goal persistence(目标持久化)。模型在跑的过程中悄悄重新定义目标,剩余的 loop 围绕新目标继续优化。大多数 LangGraph 风格框架检查"agent 完成目标了吗",但不检查"被完成的目标,是不是用户最初指定的那个目标"。新版 Codex CLI 的 /goal 命令是其中一种修法,但社区还没有干净的标准答案。
#12
@davidmytton
https://x.com/davidmytton/status/2049849062908695039
Arcjet 发布 Guards:在 agent loop 内部做运行时强制——prompt injection 检测、按用户的 token 预算、PII 脱敏。框架对得上:WAF 守的是 HTTP 请求那一层,但 agent 抓了一个网页,网页里藏了指令,一个 loop 跑起来把客户名单邮件出去了,过夜还烧了一晚上 token——这些都发生在防火墙之外。新的部分是它作为 skill 而不是单独框架来交付:一行 npx skills add arcjet/skills --skill add-guard-protection,agent 自己装上护栏。
https://x.com/davidmytton/status/2049849062908695039
Arcjet 发布 Guards:在 agent loop 内部做运行时强制——prompt injection 检测、按用户的 token 预算、PII 脱敏。框架对得上:WAF 守的是 HTTP 请求那一层,但 agent 抓了一个网页,网页里藏了指令,一个 loop 跑起来把客户名单邮件出去了,过夜还烧了一晚上 token——这些都发生在防火墙之外。新的部分是它作为 skill 而不是单独框架来交付:一行 npx skills add arcjet/skills --skill add-guard-protection,agent 自己装上护栏。
#13
@polsia
https://x.com/polsia/status/2049732585044238383
当天的反面教材。CrewAI 客户跑了一个递归 agent loop,7 小时打了 44000 次 API 调用,烧掉 5 万美金。没有预算上限,没有断路器。原帖的话——"你的 agent 现在正在干同样的事,唯一的差别是你还没注意到"——是夸张的,但底下那条事实是真的:任何不显式终止的 agent loop,最终都会停不下来。两个 agent 互相递归调用,一晚上就够把预算烧穿。
https://x.com/polsia/status/2049732585044238383
当天的反面教材。CrewAI 客户跑了一个递归 agent loop,7 小时打了 44000 次 API 调用,烧掉 5 万美金。没有预算上限,没有断路器。原帖的话——"你的 agent 现在正在干同样的事,唯一的差别是你还没注意到"——是夸张的,但底下那条事实是真的:任何不显式终止的 agent loop,最终都会停不下来。两个 agent 互相递归调用,一晚上就够把预算烧穿。
#14
@epichrisis
https://x.com/epichrisis/status/2049894459857600923
对"单 agent loop"框架最有力的反驳。作者真实生产栈做的是 continual learning、多层 memory、swarm 风格自优化,跨"一个不断进化的 agent mandate 和共享记忆生态"。他用 quorum sensing 和趋化作用做类比,然后点出了大多数公开 agent 讨论错过的一件事:单 agent loop 在优化潜力上是有界的,集合系统不是。推论一句话——"没有任何一个 agent lab 能孤立地解决这个问题,因为它需要正确的模型栈"——值得对着接下来 6 个月的多 agent 工作来追踪。
https://x.com/epichrisis/status/2049894459857600923
对"单 agent loop"框架最有力的反驳。作者真实生产栈做的是 continual learning、多层 memory、swarm 风格自优化,跨"一个不断进化的 agent mandate 和共享记忆生态"。他用 quorum sensing 和趋化作用做类比,然后点出了大多数公开 agent 讨论错过的一件事:单 agent loop 在优化潜力上是有界的,集合系统不是。推论一句话——"没有任何一个 agent lab 能孤立地解决这个问题,因为它需要正确的模型栈"——值得对着接下来 6 个月的多 agent 工作来追踪。
#15
@Trumpyla
https://x.com/Trumpyla/status/2049913337283059951
长论:生产级推理不是扁平 agent loop,是 Recursive Language Model(递归语言模型)——agent 递归地 spawn 自己的子实例,子实例有自己的 state 和 budget;状态外置在模型之外;工具编排成为一等公民。把这条线和 Karpathy 的 LLM-as-OS 框架对接然后再往前推一步。具体后果:深度按 pass 数线性扩展,分支扩展搜索空间,递归带来可审计的执行图——但你必须显式设计终止条件和预算上限,不然就直接撞上 polsia 那条 5 万美金的坑。
https://x.com/Trumpyla/status/2049913337283059951
长论:生产级推理不是扁平 agent loop,是 Recursive Language Model(递归语言模型)——agent 递归地 spawn 自己的子实例,子实例有自己的 state 和 budget;状态外置在模型之外;工具编排成为一等公民。把这条线和 Karpathy 的 LLM-as-OS 框架对接然后再往前推一步。具体后果:深度按 pass 数线性扩展,分支扩展搜索空间,递归带来可审计的执行图——但你必须显式设计终止条件和预算上限,不然就直接撞上 polsia 那条 5 万美金的坑。
#16
@hbouammar
https://x.com/hbouammar/status/2049862531506717157
λ-RLM (Lambda 递归语言模型)——开源 repo,主张把递归从模型里搬出去,搬到一个有类型的 lambda calculus 运行时上(split → map → filter → reduce 几个原语)。报数:相比标准 RLM 29/36 胜,最高 +21.9 个准确率点,最高 4.1× 更低延迟。论点"长上下文推理不是上下文窗口问题,是控制流问题"框得对。这套 runtime 能不能跨过学术 benchmark 走到产线还要看,但这是这个月看到的对"别再让模型自己写 loop"最干净的表达。
https://x.com/hbouammar/status/2049862531506717157
λ-RLM (Lambda 递归语言模型)——开源 repo,主张把递归从模型里搬出去,搬到一个有类型的 lambda calculus 运行时上(split → map → filter → reduce 几个原语)。报数:相比标准 RLM 29/36 胜,最高 +21.9 个准确率点,最高 4.1× 更低延迟。论点"长上下文推理不是上下文窗口问题,是控制流问题"框得对。这套 runtime 能不能跨过学术 benchmark 走到产线还要看,但这是这个月看到的对"别再让模型自己写 loop"最干净的表达。
#17
@SwamiSivasubram
https://x.com/SwamiSivasubram/status/2049900359162757524
AWS 发布 Strands Agents SDK 1.0 TypeScript 版——agent loop 之上的 harness 层,自带默认工具(shell、文件编辑、HTTP、结构化笔记)、可定制 hook 和 plugin、Node.js 和浏览器都能跑。Python SDK 一年 2500 万次下载。框架对得上:"agent harness SDK that goes beyond the core agent loop"——agent loop 本身已经被商品化了,价值在围绕它的轨道上。值得非 AWS 用户关注的一点是:Strands 也支持任何 OpenAI 兼容的模型 provider。
https://x.com/SwamiSivasubram/status/2049900359162757524
AWS 发布 Strands Agents SDK 1.0 TypeScript 版——agent loop 之上的 harness 层,自带默认工具(shell、文件编辑、HTTP、结构化笔记)、可定制 hook 和 plugin、Node.js 和浏览器都能跑。Python SDK 一年 2500 万次下载。框架对得上:"agent harness SDK that goes beyond the core agent loop"——agent loop 本身已经被商品化了,价值在围绕它的轨道上。值得非 AWS 用户关注的一点是:Strands 也支持任何 OpenAI 兼容的模型 provider。
#18
@KanikaBK
https://x.com/KanikaBK/status/2049835946728951814
claude-obsidian 把 Karpathy 的 LLM Wiki 模式实现为一个 Claude Code skill。丢一个 source 进去,/wiki 自动创建 8-15 个结构化 wiki 页面,每个新页面跟既有 vault 做交叉引用,矛盾用 callout 标出。/autoresearch 命令跑 3 轮 web research loop,找空白、补空白、归档。/save 把任何 Claude 对话变成永久 wiki 笔记。结构上最有意思的是 hot cache——每次会话结束 Claude 写一份近期上下文摘要,下次会话先读这份摘要,你再也不用手动重建上下文。
https://x.com/KanikaBK/status/2049835946728951814
claude-obsidian 把 Karpathy 的 LLM Wiki 模式实现为一个 Claude Code skill。丢一个 source 进去,/wiki 自动创建 8-15 个结构化 wiki 页面,每个新页面跟既有 vault 做交叉引用,矛盾用 callout 标出。/autoresearch 命令跑 3 轮 web research loop,找空白、补空白、归档。/save 把任何 Claude 对话变成永久 wiki 笔记。结构上最有意思的是 hot cache——每次会话结束 Claude 写一份近期上下文摘要,下次会话先读这份摘要,你再也不用手动重建上下文。
#19
@OomkaBear
https://x.com/OomkaBear/status/2049766175672778949
OpenAI 给 Responses API 加了 WebSocket 模式——Codex 风格 agent 跑 40% 提速。原帖的判断是对的:性能优化的重心正在从模型延迟转向 agent loop 的系统工程。跨 tool call 的 state-warming 现在对生产环境的提升比 benchmark 提升大。对所有跑长链路 loop 的人来说意味着——换个 transport 就免费拿到大约 40% 的同负载提速。
https://x.com/OomkaBear/status/2049766175672778949
OpenAI 给 Responses API 加了 WebSocket 模式——Codex 风格 agent 跑 40% 提速。原帖的判断是对的:性能优化的重心正在从模型延迟转向 agent loop 的系统工程。跨 tool call 的 state-warming 现在对生产环境的提升比 benchmark 提升大。对所有跑长链路 loop 的人来说意味着——换个 transport 就免费拿到大约 40% 的同负载提速。
#20
@AryamanIyer3
https://x.com/AryamanIyer3/status/2049693676004352371
Codex vs Claude Code 之争里一个具体的、基于金融建模任务的数据点。报告 Opus 4.6 在金融建模任务的吞吐量上压制 Codex 5.3,把差距归因到 agentic loop overhead——Codex 的 loop 每个有效动作消耗的循环数更多。同时指出 Claude Code 那种"边聊边出活"的体感对架构决策(区别于纯生成)确实成立。这种基于场景但有定量参照的对比,比纯 benchmark 排行更经得起模型迭代。
https://x.com/AryamanIyer3/status/2049693676004352371
Codex vs Claude Code 之争里一个具体的、基于金融建模任务的数据点。报告 Opus 4.6 在金融建模任务的吞吐量上压制 Codex 5.3,把差距归因到 agentic loop overhead——Codex 的 loop 每个有效动作消耗的循环数更多。同时指出 Claude Code 那种"边聊边出活"的体感对架构决策(区别于纯生成)确实成立。这种基于场景但有定量参照的对比,比纯 benchmark 排行更经得起模型迭代。
#21
@wgw_eth
https://x.com/wgw_eth/status/2049837792276939102
papa-pi / pi-puppies / pi-kittens——一套用 Bubblewrap 把每个自主自我改进的 Pi agent 沙箱化、互不干扰的系统。每个 agent 有自己的 memory、identity 和 world。值得点出来的是沙箱原语本身——任何多 agent 栈最终都需要 agent 之间硬隔离(文件系统、网络、内存),用 Bubblewrap 比把每个 agent 塞进 Docker 更合理。任何在搭真的 agent fleet(agent 之间不能互相干扰)的人值得关注。
https://x.com/wgw_eth/status/2049837792276939102
papa-pi / pi-puppies / pi-kittens——一套用 Bubblewrap 把每个自主自我改进的 Pi agent 沙箱化、互不干扰的系统。每个 agent 有自己的 memory、identity 和 world。值得点出来的是沙箱原语本身——任何多 agent 栈最终都需要 agent 之间硬隔离(文件系统、网络、内存),用 Bubblewrap 比把每个 agent 塞进 Docker 更合理。任何在搭真的 agent fleet(agent 之间不能互相干扰)的人值得关注。
#22
@ivakshi_s
https://x.com/ivakshi_s/status/2049938090114920858
ICML 2026 三篇 paper 中签:长期 agent memory、自我改进的开放式 agent 安全、因果性 + 可信 AI。一个作者管线里同时出这三篇有意思——刚好对应到生产 agent loop 撞上的实际瓶颈(记忆整合、行为失控、决策归因)。等 camera-ready PDF 出来值得追。
https://x.com/ivakshi_s/status/2049938090114920858
ICML 2026 三篇 paper 中签:长期 agent memory、自我改进的开放式 agent 安全、因果性 + 可信 AI。一个作者管线里同时出这三篇有意思——刚好对应到生产 agent loop 撞上的实际瓶颈(记忆整合、行为失控、决策归因)。等 camera-ready PDF 出来值得追。
📡 生态产品雷达
生态产品雷达
#23
Karpathy autoresearch repo —— 本周这一波 loop 工作的字面意义上的源头。出现在 12+ 篇帖子里被作为参考架构。
Claude Code —— 这些 loop 最常用的 harness,特别是非研究领域(交易、广告、内容、Obsidian)。
Codex / GPT-5.5 —— 第二选择 harness;review-loop 配对里特别常被提到——Claude Code 实现,Codex 评审。
Hermes Agent —— 第三 harness;自我改进 / 持续学习类用例里持续出现(NousResearch 出的)。
ml-intern —— Sakana 的 ML 研究 agent,现在可以通过 Agent Collabs 协作。
Beehiiv MCP / Meta Ads CLI / Higgsfield MCP —— 营销 loop 三件套;大家在堆这套搭自我改进的广告 pipeline。
Strands Agents SDK (AWS) —— agent loop 之上的 harness 层,自带默认工具和 plugin hook;TypeScript 版 GA。
LangSmith / LangGraph —— 多用户生产部署里"agent serving 基础设施"还是它们当默认参考。
Bubblewrap —— DIY 多 agent fleet 里需要硬隔离时出现的沙箱原语。
Cursor SDK —— 可编程 agent 基础设施,可以把 agent loop 嵌进 CI/CD 和别的产品里。
Arcjet Guards —— agent loop 内部的运行时强制(prompt 注入、token 预算、PII 脱敏);以可安装 skill 的形式发布。
DGX Spark —— 本地硬件底座;多个帖子在这一台机器上跑 20+ 个模型的 agentic loop。
Walrus + MemWal —— 跨 session 跨 provider 的长期 agent 记忆层,OpenClaw 和 NemoClaw 的 plug-in。
EvoSkill V1 (Sentient Labs) —— 把 autoresearch 做成工具包,专化前沿模型之上的已有 agent。
Claude Code —— 这些 loop 最常用的 harness,特别是非研究领域(交易、广告、内容、Obsidian)。
Codex / GPT-5.5 —— 第二选择 harness;review-loop 配对里特别常被提到——Claude Code 实现,Codex 评审。
Hermes Agent —— 第三 harness;自我改进 / 持续学习类用例里持续出现(NousResearch 出的)。
ml-intern —— Sakana 的 ML 研究 agent,现在可以通过 Agent Collabs 协作。
Beehiiv MCP / Meta Ads CLI / Higgsfield MCP —— 营销 loop 三件套;大家在堆这套搭自我改进的广告 pipeline。
Strands Agents SDK (AWS) —— agent loop 之上的 harness 层,自带默认工具和 plugin hook;TypeScript 版 GA。
LangSmith / LangGraph —— 多用户生产部署里"agent serving 基础设施"还是它们当默认参考。
Bubblewrap —— DIY 多 agent fleet 里需要硬隔离时出现的沙箱原语。
Cursor SDK —— 可编程 agent 基础设施,可以把 agent loop 嵌进 CI/CD 和别的产品里。
Arcjet Guards —— agent loop 内部的运行时强制(prompt 注入、token 预算、PII 脱敏);以可安装 skill 的形式发布。
DGX Spark —— 本地硬件底座;多个帖子在这一台机器上跑 20+ 个模型的 agentic loop。
Walrus + MemWal —— 跨 session 跨 provider 的长期 agent 记忆层,OpenClaw 和 NemoClaw 的 plug-in。
EvoSkill V1 (Sentient Labs) —— 把 autoresearch 做成工具包,专化前沿模型之上的已有 agent。
评论