Loop 日报: 2026-05-01
今天的 loop 故事在三条线上变锋利。第一,autoresearch 正在从概念 demo 变成后台工具——独立帖子确认有人在跑 15 轮蛋白质建模 loop、5 小时的 Codex Autoresearch 把 embedding pipeline 砍 40%、Karpathy 风格的 700 实验过夜跑被反复拆解,重点不在 700 而在『哪 20 个值得留』背后的判断标准。第二,harness 层变成护城河:Cursor SDK 在 Claude Code SDK 和 OpenAI Agents SDK 之后 3 周跟上、AWS Bedrock AgentCore 把托管 agent loop 当成原语卖、Spotify Honk 团队发了今年最干净的生产团队记录,讲什么样的 agent 真的能在规模化下让 PR 进生产。第三,成本数学终于在运行时被建模了,不是在 dashboard 里——Tensormesh 把『200 token 信息要烧 11500 token』的 cache 击穿问题诊断清楚,Portal26 把 agentic token 控制塞进 loop 自身,Meta 跟 AWS 的 Graviton5 大单验证了大多数 agent 周期不是生成而是 CPU 活。loop 这个原语正在从研究产物毕业到平台层。
#1
@Whats_AI
https://x.com/Whats_AI/status/2049547534259896581
再一次把 Karpathy 的 AutoResearch 结果具体化:一个 markdown prompt、630 行训练代码、一块 GPU、两天、跑了 700 个实验,留下 20 个训练优化。重点不是 700,而是『哪 20 个值得留』背后的判断标准。大多数分析都跳过了这一步,把运行本身当成产物,错过了真正的筛选逻辑。
https://x.com/Whats_AI/status/2049547534259896581
再一次把 Karpathy 的 AutoResearch 结果具体化:一个 markdown prompt、630 行训练代码、一块 GPU、两天、跑了 700 个实验,留下 20 个训练优化。重点不是 700,而是『哪 20 个值得留』背后的判断标准。大多数分析都跳过了这一步,把运行本身当成产物,错过了真正的筛选逻辑。
#2
@TheGreenCedar
https://x.com/TheGreenCedar/status/2049498775341711427
作者说 Codex Autoresearch 插件让 GPT 5.5 在一次 5 小时的运行里把 index+embedding pipeline 跑时砍了 40%,办法是同时试 async index+embed、embedder 参数微调、indexer streaming。一个 autoresearch loop 把一周的手工调优压成一晚的真实收据。
https://x.com/TheGreenCedar/status/2049498775341711427
作者说 Codex Autoresearch 插件让 GPT 5.5 在一次 5 小时的运行里把 index+embedding pipeline 跑时砍了 40%,办法是同时试 async index+embed、embedder 参数微调、indexer streaming。一个 autoresearch loop 把一周的手工调优压成一晚的真实收据。
#3
@DeepValueBagger
https://x.com/DeepValueBagger/status/2049561386741539002
前硅谷技术负责人现在正在跑一个 autoresearch loop 调本地 LLM。就一句话,但这是这周第三个独立发的『我现在正在跑 autoresearch 调 X』——这个 loop 正在从概念 demo 变成后台工具。
https://x.com/DeepValueBagger/status/2049561386741539002
前硅谷技术负责人现在正在跑一个 autoresearch loop 调本地 LLM。就一句话,但这是这周第三个独立发的『我现在正在跑 autoresearch 调 X』——这个 loop 正在从概念 demo 变成后台工具。
#4
@0xSero
https://x.com/0xSero/status/2049409207292608881
认为缺的原语不是更聪明的模型,而是 harness 里的一个 /loop 钩子让 autoresearch 永远跑下去。Factory Droid 里的 /loop 是范式,他想 Anthropic 和 OpenAI 也做。harness 即平台这个论点越来越锋利——真正的锁定发生在运行时控制层。
https://x.com/0xSero/status/2049409207292608881
认为缺的原语不是更聪明的模型,而是 harness 里的一个 /loop 钩子让 autoresearch 永远跑下去。Factory Droid 里的 /loop 是范式,他想 Anthropic 和 OpenAI 也做。harness 即平台这个论点越来越锋利——真正的锁定发生在运行时控制层。
#5
@katyenko
https://x.com/katyenko/status/2049518684981596562
做了 muni CLI 让科学家在自己的项目、脚本、agent 里调用 muni 工具——他们自己拿它在 NVIDIA 的 Proteina-Complexa 上跑了 15 轮 autoresearch loop。15 轮这种次数只有在 loop 无人值守地跑才现实。科学工作流就这样悄悄不再是交互式的。
https://x.com/katyenko/status/2049518684981596562
做了 muni CLI 让科学家在自己的项目、脚本、agent 里调用 muni 工具——他们自己拿它在 NVIDIA 的 Proteina-Complexa 上跑了 15 轮 autoresearch loop。15 轮这种次数只有在 loop 无人值守地跑才现实。科学工作流就这样悄悄不再是交互式的。
#6
@doronkatz
https://x.com/doronkatz/status/2049290998904135704
Nightshift 把自己定位成『为 Mac 做的 AutoResearch』——通过 MLX 在 Apple Silicon 上过夜跑自主 ML 研究工作流。醒来看到结果,不是转圈光标。本地 autoresearch 终于是个消费者形态的产品,不再是 Karpathy 的 fork。
https://x.com/doronkatz/status/2049290998904135704
Nightshift 把自己定位成『为 Mac 做的 AutoResearch』——通过 MLX 在 Apple Silicon 上过夜跑自主 ML 研究工作流。醒来看到结果,不是转圈光标。本地 autoresearch 终于是个消费者形态的产品,不再是 Karpathy 的 fork。
#7
@91amin91
https://x.com/91amin91/status/2049510094744801471
问了一个该问的问题:把 Matt Pocock 的 skills 系统跟 autoresearch/autodiscovery 配起来,让 loop 不只是 ship 软件,而是 ship 真实业务。这周一直在浮的论点——agent 生产的是公司不是 commit——需要 loop 这个原语。
https://x.com/91amin91/status/2049510094744801471
问了一个该问的问题:把 Matt Pocock 的 skills 系统跟 autoresearch/autodiscovery 配起来,让 loop 不只是 ship 软件,而是 ship 真实业务。这周一直在浮的论点——agent 生产的是公司不是 commit——需要 loop 这个原语。
#8
@Tyfoods4Thought
https://x.com/Tyfoods4Thought/status/2049470252208001358
把 Karpathy 的 autoresearch prompt 上升成一种『应用面非常广』的方法——不只是 ML 调参,而是任何有可度量目标和可编辑工件的事。这个模式正在脱离原始语境被泛化——方法论开始变成基础设施的时刻就是现在。
https://x.com/Tyfoods4Thought/status/2049470252208001358
把 Karpathy 的 autoresearch prompt 上升成一种『应用面非常广』的方法——不只是 ML 调参,而是任何有可度量目标和可编辑工件的事。这个模式正在脱离原始语境被泛化——方法论开始变成基础设施的时刻就是现在。
#9
@0rdlibrary
https://x.com/0rdlibrary/status/2049608602071998829
他的 AutoResearch Wiki for OpenClawd 发了 v0.3:agent 通过维护自己发现的 wiki 并在上面迭代来教自己。『通过持久化 wiki 让 agent 自学』这个范式同一周在两个不同的栈(OpenClawd 和 Karpathy 的 Knowledge Bases)里都出现了。
https://x.com/0rdlibrary/status/2049608602071998829
他的 AutoResearch Wiki for OpenClawd 发了 v0.3:agent 通过维护自己发现的 wiki 并在上面迭代来教自己。『通过持久化 wiki 让 agent 自学』这个范式同一周在两个不同的栈(OpenClawd 和 Karpathy 的 Knowledge Bases)里都出现了。
#10
@nickbrutyan
https://x.com/nickbrutyan/status/2049417002373300551
noticed.so 用 autoresearch 提升自己 agent 的 harness——这是一个映射人脉网络的产品,agent 变敏锐意味着它生成的 warm intro 也变敏锐。睡着时复利才是真实的产品机制,不只是营销话术。
https://x.com/nickbrutyan/status/2049417002373300551
noticed.so 用 autoresearch 提升自己 agent 的 harness——这是一个映射人脉网络的产品,agent 变敏锐意味着它生成的 warm intro 也变敏锐。睡着时复利才是真实的产品机制,不只是营销话术。
#11
@runfusion
https://x.com/runfusion/status/2049320223560655065
Fusion 通向 1.0 的路线图把『autoresearch 深度集成』作为头条要点列出来,旁边是跨节点 agent 记忆、可选沙箱、Hermes/Paperclip/OpenClaw 集成走出实验。autoresearch 正在变成 agent 平台路线图上的标准条目。
https://x.com/runfusion/status/2049320223560655065
Fusion 通向 1.0 的路线图把『autoresearch 深度集成』作为头条要点列出来,旁边是跨节点 agent 记忆、可选沙箱、Hermes/Paperclip/OpenClaw 集成走出实验。autoresearch 正在变成 agent 平台路线图上的标准条目。
#12
@ianmiles
https://x.com/ianmiles/status/2049453705015992709
David Friedberg 的说法被搬出来:从 GitHub 下载 auto research、在普通台式机上喂入基因组学数据,30 分钟后产出了一份原本要 7 年博士论文才能出的东西——还是那种能登 Science 的级别。哪怕只对一半,30 分钟 vs 7 年 = 约 12 万倍的生产力比,是迄今为止公开声明里最极端的 autoresearch 战绩。带着合理的怀疑读,但说话的人是公众人物且实名。
https://x.com/ianmiles/status/2049453705015992709
David Friedberg 的说法被搬出来:从 GitHub 下载 auto research、在普通台式机上喂入基因组学数据,30 分钟后产出了一份原本要 7 年博士论文才能出的东西——还是那种能登 Science 的级别。哪怕只对一半,30 分钟 vs 7 年 = 约 12 万倍的生产力比,是迄今为止公开声明里最极端的 autoresearch 战绩。带着合理的怀疑读,但说话的人是公众人物且实名。
#13
@dosco
https://x.com/dosco/status/2049284900571013207
指出当前 LLM 就是『transformer block 反复堆』,所以在外面套个带 scratchpad 的 loop 在结构上很自然——真正的研究方向是怎么做更好的 scratchpad。想拿 Karpathy 的 auto-research loop 试。这是大多数 autoresearch 帖子跳过的结构性批评。
https://x.com/dosco/status/2049284900571013207
指出当前 LLM 就是『transformer block 反复堆』,所以在外面套个带 scratchpad 的 loop 在结构上很自然——真正的研究方向是怎么做更好的 scratchpad。想拿 Karpathy 的 auto-research loop 试。这是大多数 autoresearch 帖子跳过的结构性批评。
#14
@unmodeledtyler
https://x.com/unmodeledtyler/status/2049606011024232764
早上把 Kimi 2.6 放出去跑 auto research。三小时后还在研究。『我启动一个 loop 就走开』正在变成一个体裁。没明说的有趣点是:他没在盯着它,这意味着失败模式是可承受的。
https://x.com/unmodeledtyler/status/2049606011024232764
早上把 Kimi 2.6 放出去跑 auto research。三小时后还在研究。『我启动一个 loop 就走开』正在变成一个体裁。没明说的有趣点是:他没在盯着它,这意味着失败模式是可承受的。
#15
@wayne_effect
https://x.com/wayne_effect/status/2049525913763627259
用一句话抓住了 loop vs chat 的区别:聊天机器人要你手动检查转化和 prompt;带 auto-research loop 的自校正 agentic AI 24/7 跑、自己检查自己。是这个领域走向的速记定义。
https://x.com/wayne_effect/status/2049525913763627259
用一句话抓住了 loop vs chat 的区别:聊天机器人要你手动检查转化和 prompt;带 auto-research loop 的自校正 agentic AI 24/7 跑、自己检查自己。是这个领域走向的速记定义。
#16
@Vtrivedy10
https://x.com/Vtrivedy10/status/2049639294256443687
问了下一层的问题:RLM(推理语言模型)应该怎么用在 autoresearch loop 自身里?已经在跑 GEPA/auto-research 式递归优化 + evals + 在 loop 里跑实验,并行 N 条 trace、共享文件系统找问题并提出改进。这是 autoresearch 的生产前沿。
https://x.com/Vtrivedy10/status/2049639294256443687
问了下一层的问题:RLM(推理语言模型)应该怎么用在 autoresearch loop 自身里?已经在跑 GEPA/auto-research 式递归优化 + evals + 在 loop 里跑实验,并行 N 条 trace、共享文件系统找问题并提出改进。这是 autoresearch 的生产前沿。
#17
@calvinnwq
https://x.com/calvinnwq/status/2049386629559996651
问 Steipete OpenClaw 是不是应该在 codex 起头的时候加一个上限 5 轮的 auto-research 风格 loop——在提 PR 前自我修复和加固。把有上限的 autoresearch loop 当成默认安全网,是给那些不想跑无限轮的生产团队的正确框架。
https://x.com/calvinnwq/status/2049386629559996651
问 Steipete OpenClaw 是不是应该在 codex 起头的时候加一个上限 5 轮的 auto-research 风格 loop——在提 PR 前自我修复和加固。把有上限的 autoresearch loop 当成默认安全网,是给那些不想跑无限轮的生产团队的正确框架。
#18
@samhogan
https://x.com/samhogan/status/2049619541727302040
HALO(Hierarchal Agent Loop Optimizer)是一种基于 RLM 的技术,通过分析执行 trace 并提出改动来递归地让 agent 自我改进。他们把 AppWorld 上 Sonnet 4.6 的成绩从 73.7 推到 89.5(+15.8),办法是把 harness trace 喂给 HALO-RLM,让它找出幻觉工具调用、冗余参数、拒答循环、语义正确性问题,再把这些问题喂给 Cursor(Opus 4.6)去改 harness。循环直到分数停止上升。现在开源了。这是这周关于自我改进 agent loop 最干净的收据之一。
https://x.com/samhogan/status/2049619541727302040
HALO(Hierarchal Agent Loop Optimizer)是一种基于 RLM 的技术,通过分析执行 trace 并提出改动来递归地让 agent 自我改进。他们把 AppWorld 上 Sonnet 4.6 的成绩从 73.7 推到 89.5(+15.8),办法是把 harness trace 喂给 HALO-RLM,让它找出幻觉工具调用、冗余参数、拒答循环、语义正确性问题,再把这些问题喂给 Cursor(Opus 4.6)去改 harness。循环直到分数停止上升。现在开源了。这是这周关于自我改进 agent loop 最干净的收据之一。
#19
@brainmirrorai
https://x.com/brainmirrorai/status/2049451144305614875
Spotify Honk 团队今天最被引用的一条经验:自己做了 agentic loop,在多文件改动上撞墙,切到 Claude Code,跑了大约 50 次迁移、后台 agent 的大部分 PR 都进了生产。核心发现:工具越多越不可预测,刻意把工具集压到最小。结尾很诚实——他们大部分时候还是凭直觉飞。本周最有用的生产团队记录。
https://x.com/brainmirrorai/status/2049451144305614875
Spotify Honk 团队今天最被引用的一条经验:自己做了 agentic loop,在多文件改动上撞墙,切到 Claude Code,跑了大约 50 次迁移、后台 agent 的大部分 PR 都进了生产。核心发现:工具越多越不可预测,刻意把工具集压到最小。结尾很诚实——他们大部分时候还是凭直觉飞。本周最有用的生产团队记录。
#20
@abacusai
https://x.com/abacusai/status/2049324780210528578
Abacus AI Studio 上线了,100+ 图像和视频模型缝在一个 agentic loop 里。loop 跟生成模型并排——选结果、迭代、精修、执行——而不是一次性 prompt 然后祈祷。面向创意工作的消费者级 agentic loop 正在以产品形态到来。
https://x.com/abacusai/status/2049324780210528578
Abacus AI Studio 上线了,100+ 图像和视频模型缝在一个 agentic loop 里。loop 跟生成模型并排——选结果、迭代、精修、执行——而不是一次性 prompt 然后祈祷。面向创意工作的消费者级 agentic loop 正在以产品形态到来。
#21
@aakashgupta
https://x.com/aakashgupta/status/2049436885450432808
把 OpenClaw 定义成一种范式而不是产品:一个 agentic loop,模型控制软件、完成多步任务、每次循环把进度写回记忆。Google Antigravity 是沙箱版,Gmail Workspace agent 是沙箱版。范式赢、沙箱追上来。本周最好的框架——告诉你为什么每个 PM 都要直接理解 loop 这个原语。
https://x.com/aakashgupta/status/2049436885450432808
把 OpenClaw 定义成一种范式而不是产品:一个 agentic loop,模型控制软件、完成多步任务、每次循环把进度写回记忆。Google Antigravity 是沙箱版,Gmail Workspace agent 是沙箱版。范式赢、沙箱追上来。本周最好的框架——告诉你为什么每个 PM 都要直接理解 loop 这个原语。
#22
@Techjunkie_Aman
https://x.com/Techjunkie_Aman/status/2049469707032629657
用操作员语言讲了一遍完整的 Claude Code agentic loop:理解任务、收集上下文、动手做(编辑/运行/搜索)、验证结果、循环直到完成。给那些还把 Claude Code 当自动补全而不是自主 loop 运行时的人当 101 解说很好用。
https://x.com/Techjunkie_Aman/status/2049469707032629657
用操作员语言讲了一遍完整的 Claude Code agentic loop:理解任务、收集上下文、动手做(编辑/运行/搜索)、验证结果、循环直到完成。给那些还把 Claude Code 当自动补全而不是自主 loop 运行时的人当 101 解说很好用。
#23
@S_Fadaeimanesh
https://x.com/S_Fadaeimanesh/status/2049557745355919515
认为模型层正在商品化,harness 才是护城河——谁拥有 agent loop 就拥有用户。Cursor SDK 在 Claude Code SDK 和 OpenAI Agents SDK 发布 3 周后跟上是论据。下一个十亿美金的锁定是运行时,不是权重。本周关于 agent loop 平台论点最干净的表达。
https://x.com/S_Fadaeimanesh/status/2049557745355919515
认为模型层正在商品化,harness 才是护城河——谁拥有 agent loop 就拥有用户。Cursor SDK 在 Claude Code SDK 和 OpenAI Agents SDK 发布 3 周后跟上是论据。下一个十亿美金的锁定是运行时,不是权重。本周关于 agent loop 平台论点最干净的表达。
#24
@aiwire_x
https://x.com/aiwire_x/status/2049416818264256673
AWS Bedrock AgentCore 现在出了托管 harness:指定模型 + system prompt + 工具,AWS 自动跑完整 agent loop——不用写编排代码。云厂商把托管 agent loop 当成原语来卖,这条线把 agent 运营从自建翻成 serverless。
https://x.com/aiwire_x/status/2049416818264256673
AWS Bedrock AgentCore 现在出了托管 harness:指定模型 + system prompt + 工具,AWS 自动跑完整 agent loop——不用写编排代码。云厂商把托管 agent loop 当成原语来卖,这条线把 agent 运营从自建翻成 serverless。
#25
@ng_thanh8
https://x.com/ng_thanh8/status/2049438323039510591
深拆 Warp 开源代码库,显示 agent loop 是 server-mediated 的:client 构造 protobuf 请求、server 代理到 provider、响应通过 SSE 流回。工具执行留在 client 侧。任何在做自己 harness 的人都应该参考——大多数团队在协议层投入不足。
https://x.com/ng_thanh8/status/2049438323039510591
深拆 Warp 开源代码库,显示 agent loop 是 server-mediated 的:client 构造 protobuf 请求、server 代理到 provider、响应通过 SSE 流回。工具执行留在 client 侧。任何在做自己 harness 的人都应该参考——大多数团队在协议层投入不足。
#26
@tensormesh
https://x.com/tensormesh/status/2049542278994403414
到典型 agent loop 第 10 步时,你的模型在用 11500 token 处理 200 token 的新信息——只要 system prompt 里塞进一个动态值,cache 就坏了。带 session 感知的持久化 KV cache 是缺失的原语。对 agent loop 为什么把成本预算炸翻最具体的诊断。
https://x.com/tensormesh/status/2049542278994403414
到典型 agent loop 第 10 步时,你的模型在用 11500 token 处理 200 token 的新信息——只要 system prompt 里塞进一个动态值,cache 就坏了。带 session 感知的持久化 KV cache 是缺失的原语。对 agent loop 为什么把成本预算炸翻最具体的诊断。
#27
@htahir111
https://x.com/htahir111/status/2049598137174491545
在做一个内部 agent factory 教程,覆盖:持久化执行层(kitaru)让每次模型调用/工具调用/HITL 暂停都可持久化可重放;类型化 agent loop(pydantic-ai);profile 驱动配置;沙箱化 Docker shell;通过 mitmproxy 做的双进程凭据隔离;技能作为 bind-mount 的 markdown;跨执行记忆;checkpoint 重放。全部开源、完全本地。这就是生产级 agent loop 基础设施的样子。
https://x.com/htahir111/status/2049598137174491545
在做一个内部 agent factory 教程,覆盖:持久化执行层(kitaru)让每次模型调用/工具调用/HITL 暂停都可持久化可重放;类型化 agent loop(pydantic-ai);profile 驱动配置;沙箱化 Docker shell;通过 mitmproxy 做的双进程凭据隔离;技能作为 bind-mount 的 markdown;跨执行记忆;checkpoint 重放。全部开源、完全本地。这就是生产级 agent loop 基础设施的样子。
#28
@millw11488
https://x.com/millw11488/status/2049495632314818722
在 Qwen 3 上跑 function-calling agent loop(带 Qwen 3 32B/72B 回退):没有 vector RAG,模型按 intent 直接调真实的 AniList GraphQL / shueisha / Jupiter / Helius / PDA API。『就直接调工具、跳过 RAG』这个模式不断作为向量检索的生产级替代出现。
https://x.com/millw11488/status/2049495632314818722
在 Qwen 3 上跑 function-calling agent loop(带 Qwen 3 32B/72B 回退):没有 vector RAG,模型按 intent 直接调真实的 AniList GraphQL / shueisha / Jupiter / Helius / PDA API。『就直接调工具、跳过 RAG』这个模式不断作为向量检索的生产级替代出现。
#29
@johniosifov
https://x.com/johniosifov/status/2049505959454621733
Portal26 上线了『agentic token control layer』,把花销护栏放进 agent loop 自身,不是 billing dashboard。下一步是跨任务 token 分配:10 个 agent 在跑、任务 A 高优先级、任务 B 探索——按任务优先级动态分配预算,不是按 agent 身份。把成本控制当成运行时智能,不当成会计。
https://x.com/johniosifov/status/2049505959454621733
Portal26 上线了『agentic token control layer』,把花销护栏放进 agent loop 自身,不是 billing dashboard。下一步是跨任务 token 分配:10 个 agent 在跑、任务 A 高优先级、任务 B 探索——按任务优先级动态分配预算,不是按 agent 身份。把成本控制当成运行时智能,不当成会计。
#30
@fulhadev
https://x.com/fulhadev/status/2049540772630856052
认为运行时所有权是一半的护城河——Cursor 的护城河是 agent loop + 代码库上下文,不是 Composer 本身。Copilot 是纯插件,所以模型一商品化它就什么都剩不下。对生产 agent 来说模型可以干净切换,编排层不行。把『harness 即护城河』论点和具体失败模式简洁地讲清楚了。
https://x.com/fulhadev/status/2049540772630856052
认为运行时所有权是一半的护城河——Cursor 的护城河是 agent loop + 代码库上下文,不是 Composer 本身。Copilot 是纯插件,所以模型一商品化它就什么都剩不下。对生产 agent 来说模型可以干净切换,编排层不行。把『harness 即护城河』论点和具体失败模式简洁地讲清楚了。
#31
@FrameworkWisely
https://x.com/FrameworkWisely/status/2049464032332013977
内存栈视角:跑 agent loop 的推理模型要 HBM 给模型、DDR5 给编排、NAND 给工件——而且每种都比一年前预测的更多。从基础设施层面看 agent loop 怎么改变硬件需求结构,是个有用的视角。
https://x.com/FrameworkWisely/status/2049464032332013977
内存栈视角:跑 agent loop 的推理模型要 HBM 给模型、DDR5 给编排、NAND 给工件——而且每种都比一年前预测的更多。从基础设施层面看 agent loop 怎么改变硬件需求结构,是个有用的视角。
#32
@JoseCSancho
https://x.com/JoseCSancho/status/2049312609585807827
Meta 跟 AWS 签了几十亿美金的 Graviton5 大单——给 AI 推理 / agentic 工作负载用的几千万 ARM CPU 核。大多数 agent 周期不是生成,是工具路由、检索、分类、规划、分支——这是 CPU 活。LLM 调用只占墙钟时间一小部分。单位经济学翻转:agent 产品可能比纯 GPU 模型便宜 5-10 倍。把成本 dashboard 做成『每美金多少工具调用』而不是 token/秒。
https://x.com/JoseCSancho/status/2049312609585807827
Meta 跟 AWS 签了几十亿美金的 Graviton5 大单——给 AI 推理 / agentic 工作负载用的几千万 ARM CPU 核。大多数 agent 周期不是生成,是工具路由、检索、分类、规划、分支——这是 CPU 活。LLM 调用只占墙钟时间一小部分。单位经济学翻转:agent 产品可能比纯 GPU 模型便宜 5-10 倍。把成本 dashboard 做成『每美金多少工具调用』而不是 token/秒。
#33
@rainshadow_tech
https://x.com/rainshadow_tech/status/2049631316652564708
Claude Opus 4.7 三个比头条 benchmark 提升更重要的原语:task budget(整个 agent loop 的 token 上限)、单次 call 的 effort 调节、2576px 视觉给密集截图用。loop 感知的特性在所有人盯着 benchmark 时悄悄发布。
https://x.com/rainshadow_tech/status/2049631316652564708
Claude Opus 4.7 三个比头条 benchmark 提升更重要的原语:task budget(整个 agent loop 的 token 上限)、单次 call 的 effort 调节、2576px 视觉给密集截图用。loop 感知的特性在所有人盯着 benchmark 时悄悄发布。
📡 生态产品雷达
生态产品雷达
Karpathy AutoResearch —— 提及 10+ 次。参考实现的 autoresearch loop,现在被移植到 Mac(Nightshift)、OpenClawd(AutoResearch Wiki),并作为 harness builder 的标准范例
HALO (Hierarchal Agent Loop Optimizer) —— 提及 1+(大) 次。samhogan 开源的基于 RLM 的自我改进 agent loop 框架,AppWorld 上 Sonnet 4.6 +15.8
Cursor SDK / Claude Code SDK / OpenAI Agents SDK —— 提及 5+ 次。三个 SDK 在 3 周内全部发布——harness/runtime 军备竞赛现在是真正的战场
Factory Droid / /loop —— 提及 3+ 次。被引用为内置在 harness 里的永远运行 autoresearch 钩子的范式
Tensormesh —— 提及 1+ 次。面向生产 agent loop 的持久化 session 感知 KV cache;cache-break-at-step-10 论点正在变成一个品类
AWS Bedrock AgentCore —— 提及 2+ 次。无需写编排代码就能跑完整 agent loop 的托管 harness
Nightshift —— 提及 3+ 次。Apple Silicon / MLX 上的过夜 ML 研究工作流
Spotify Honk —— 提及 3+ 次。本周被引用最多的生产团队记录——自建 agentic loop、撞墙、切到 Claude Code、保持工具集最小
kitaru / pydantic-ai —— 提及 1+ 次。持久化执行 + 类型化 agent loop 的组合,用来搭内部 agent factory
Portal26 —— 提及 1+ 次。把 agentic token 控制放进 loop 而不是 billing dashboard
Warp (开源) —— 提及 3+ 次。server-mediated agent loop 参考架构;protobuf + SSE
Meta x AWS Graviton5 —— 提及 2+ 次。几十亿美金 CPU 大单,验证大多数 agent loop 周期是 CPU 活、不是 GPU
Karpathy AutoResearch —— 提及 10+ 次。参考实现的 autoresearch loop,现在被移植到 Mac(Nightshift)、OpenClawd(AutoResearch Wiki),并作为 harness builder 的标准范例
HALO (Hierarchal Agent Loop Optimizer) —— 提及 1+(大) 次。samhogan 开源的基于 RLM 的自我改进 agent loop 框架,AppWorld 上 Sonnet 4.6 +15.8
Cursor SDK / Claude Code SDK / OpenAI Agents SDK —— 提及 5+ 次。三个 SDK 在 3 周内全部发布——harness/runtime 军备竞赛现在是真正的战场
Factory Droid / /loop —— 提及 3+ 次。被引用为内置在 harness 里的永远运行 autoresearch 钩子的范式
Tensormesh —— 提及 1+ 次。面向生产 agent loop 的持久化 session 感知 KV cache;cache-break-at-step-10 论点正在变成一个品类
AWS Bedrock AgentCore —— 提及 2+ 次。无需写编排代码就能跑完整 agent loop 的托管 harness
Nightshift —— 提及 3+ 次。Apple Silicon / MLX 上的过夜 ML 研究工作流
Spotify Honk —— 提及 3+ 次。本周被引用最多的生产团队记录——自建 agentic loop、撞墙、切到 Claude Code、保持工具集最小
kitaru / pydantic-ai —— 提及 1+ 次。持久化执行 + 类型化 agent loop 的组合,用来搭内部 agent factory
Portal26 —— 提及 1+ 次。把 agentic token 控制放进 loop 而不是 billing dashboard
Warp (开源) —— 提及 3+ 次。server-mediated agent loop 参考架构;protobuf + SSE
Meta x AWS Graviton5 —— 提及 2+ 次。几十亿美金 CPU 大单,验证大多数 agent loop 周期是 CPU 活、不是 GPU
评论