Stanford 把 agent 做到比 Docker 快 5 倍,靠的是把「执行轨迹」当成真相之源。
Shepherd 昨天在 arXiv 放出来。Stanford NLP 的 7 位作者,包括 Christopher Manning 和 Weiyan Shi,另有 Derek Chong、Ananjan Nandi、Dilara Soylu、Jiuding Sun,Simon Yu 一作。56 页、21 张图、14 张表。定位——meta-agent(编排其他 agent 的 agent)一直被运行时底座卡住。Docker 太慢、prompt cache 跨 fork 不能复用、replay 是手工糊的、intervention 很脆。Shepherd 是从第一性原理重写。
核心点子是一个函数式编程模型,meta-agent 的每个操作都是 Git 风格执行轨迹里一个带类型的事件。状态不可变、可 fork。Cache 通过内容寻址跨分支复用。Replay 就是走一遍轨迹。数字——同样负载下比 Docker 快 5 倍,跨 fork 的 prompt cache 复用超过 95%。这是让下游所有东西成为可能的底座结果。
三个下游应用从底座掉出来。一是 supervisor agent 做运行时干预——CooperBench 上结对编程通过率从 28.8% 上到 54.7%,提升 25.9 个百分点。二是分支探索做反事实 meta 优化——benchmark 最多提升 11 个点,同时执行总时长减少 58%,因为前缀不用重跑。三是用选择性 fork 做 Tree-RL 训练——TerminalBench-2 用跟线性基线一样的算力预算从 34.2% 爬到 39.4%。
结构论点比 5 倍这件事大。当前大多数 agent 框架把运行时当作编排层的问题——调度任务、失败重试、日志写哪。Shepherd 把执行轨迹当作真相之源。每个状态是 Git 树里的一个节点。这会改变能做什么——任何决策都可以回溯审计、可以分支测试替代策略不用起新容器、可以把树作为结构化对象训练而不是拉平成线性 rollout。
论文说他们会开源。Manning 一作 + 56 页处理 + CooperBench +25.9 个点 + Docker 快 5 倍 + Tree-RL 训练这一整套,是那种几个月内会被引用为原语的 bundle。如果开源版本落得干净,Shepherd 会成为其他 agent 框架编译下沉到的那一层底座。arxiv.org/abs/2605.10913。
← 返回所有文章
核心点子是一个函数式编程模型,meta-agent 的每个操作都是 Git 风格执行轨迹里一个带类型的事件。状态不可变、可 fork。Cache 通过内容寻址跨分支复用。Replay 就是走一遍轨迹。数字——同样负载下比 Docker 快 5 倍,跨 fork 的 prompt cache 复用超过 95%。这是让下游所有东西成为可能的底座结果。
三个下游应用从底座掉出来。一是 supervisor agent 做运行时干预——CooperBench 上结对编程通过率从 28.8% 上到 54.7%,提升 25.9 个百分点。二是分支探索做反事实 meta 优化——benchmark 最多提升 11 个点,同时执行总时长减少 58%,因为前缀不用重跑。三是用选择性 fork 做 Tree-RL 训练——TerminalBench-2 用跟线性基线一样的算力预算从 34.2% 爬到 39.4%。
结构论点比 5 倍这件事大。当前大多数 agent 框架把运行时当作编排层的问题——调度任务、失败重试、日志写哪。Shepherd 把执行轨迹当作真相之源。每个状态是 Git 树里的一个节点。这会改变能做什么——任何决策都可以回溯审计、可以分支测试替代策略不用起新容器、可以把树作为结构化对象训练而不是拉平成线性 rollout。
论文说他们会开源。Manning 一作 + 56 页处理 + CooperBench +25.9 个点 + Docker 快 5 倍 + Tree-RL 训练这一整套,是那种几个月内会被引用为原语的 bundle。如果开源版本落得干净,Shepherd 会成为其他 agent 框架编译下沉到的那一层底座。arxiv.org/abs/2605.10913。
评论