2026年5月12日Research Infrastructure Framework

Stanford 把 agent 做到比 Docker 快 5 倍，靠的是把「执行轨迹」当成真相之源。

Shepherd 昨天在 arXiv 放出来。Stanford NLP 的 7 位作者，包括 Christopher Manning 和 Weiyan Shi，另有 Derek Chong、Ananjan Nandi、Dilara Soylu、Jiuding Sun，Simon Yu 一作。56 页、21 张图、14 张表。定位——meta-agent（编排其他 agent 的 agent）一直被运行时底座卡住。Docker 太慢、prompt cache 跨 fork 不能复用、replay 是手工糊的、intervention 很脆。Shepherd 是从第一性原理重写。

核心点子是一个函数式编程模型，meta-agent 的每个操作都是 Git 风格执行轨迹里一个带类型的事件。状态不可变、可 fork。Cache 通过内容寻址跨分支复用。Replay 就是走一遍轨迹。数字——同样负载下比 Docker 快 5 倍，跨 fork 的 prompt cache 复用超过 95%。这是让下游所有东西成为可能的底座结果。

三个下游应用从底座掉出来。一是 supervisor agent 做运行时干预——CooperBench 上结对编程通过率从 28.8% 上到 54.7%，提升 25.9 个百分点。二是分支探索做反事实 meta 优化——benchmark 最多提升 11 个点，同时执行总时长减少 58%，因为前缀不用重跑。三是用选择性 fork 做 Tree-RL 训练——TerminalBench-2 用跟线性基线一样的算力预算从 34.2% 爬到 39.4%。

结构论点比 5 倍这件事大。当前大多数 agent 框架把运行时当作编排层的问题——调度任务、失败重试、日志写哪。Shepherd 把执行轨迹当作真相之源。每个状态是 Git 树里的一个节点。这会改变能做什么——任何决策都可以回溯审计、可以分支测试替代策略不用起新容器、可以把树作为结构化对象训练而不是拉平成线性 rollout。

论文说他们会开源。Manning 一作 + 56 页处理 + CooperBench +25.9 个点 + Docker 快 5 倍 + Tree-RL 训练这一整套，是那种几个月内会被引用为原语的 bundle。如果开源版本落得干净，Shepherd 会成为其他 agent 框架编译下沉到的那一层底座。arxiv.org/abs/2605.10913。

← 上一篇

DeepMind 想干掉鼠标指针。替代品是一个会读你屏幕的 AI agent。

Cactus Compute 把 Gemini 的 tool calling 蒸馏成 2600 万参数。能跑在手表上。

← 返回所有文章

加载中...

Stanford 把 agent 做到比 Docker 快 5 倍，靠的是把「执行轨迹」当成真相之源。

更多文章

评论