2026年5月15日Framework Open Source RL

微软研究院低调开源了 Orchard

Orchard 5月14号上了 arXiv（2605.15040）。微软研究院的开源 Agent 建模框架。头条不是论文本身，是他们用这个框架训出来的东西：三套不同的 Agent 配方建在同一个 K8s 原生环境服务上，每一套都在各自的 benchmark 上摸到了开源 SOTA。

Orchard-SWE 用 Qwen3-30B-A3B-Thinking 跑出 SWE-bench Verified 67.5%，SFT 加 RL，靠一个叫 Balanced Adaptive Rollout 的 trick 解决稀疏奖励问题。Orchard-GUI 用 Qwen3-VL-4B-Thinking 在 WebVoyager、Online-Mind2Web、DeepShop 上平均 68.4%，训练数据加起来只有 2.6K 任务，已经能和 OpenAI、Gemini 的浏览器 Agent 掰手腕。Orchard-Claw 是他们的个人助理变种，用 200 个合成任务在 ZeroClaw harness 上跑出 pass@3 73.9%。

真正值得盯的是 Orchard Env。一个轻量 K8s 服务，通过 REST 暴露沙箱生命周期、命令执行、文件 I/O、网络策略。平均命令延迟 0.28 秒，1000 个并发沙箱时成功率 100%，用 spot 实例比 Daytona 或 E2B 便宜 10 倍。这就是过去一年所有在训 Agent 的团队都在手撸的那个又便宜又能复用的底层。

代码在 github.com/microsoft/Orchard。仓库现在写着「发布暂缓，很快会公开代码」，但论文细节够，微软的意图也摆出来了。如果你在训编程或 GUI Agent，这是接下来要 clone 的参考栈。

← 上一篇

Mac 等的本地 Agent，终于来了

SDAR 把 GRPO 没教好的 Agent 训出来了

← 返回所有文章

加载中...

微软研究院低调开源了 Orchard

相关文章

评论