2026年5月15日FrameworkOpen SourceRL

微软研究院低调开源了 Orchard

Orchard 5月14号上了 arXiv(2605.15040)。微软研究院的开源 Agent 建模框架。头条不是论文本身,是他们用这个框架训出来的东西:三套不同的 Agent 配方建在同一个 K8s 原生环境服务上,每一套都在各自的 benchmark 上摸到了开源 SOTA。

Orchard-SWE 用 Qwen3-30B-A3B-Thinking 跑出 SWE-bench Verified 67.5%,SFT 加 RL,靠一个叫 Balanced Adaptive Rollout 的 trick 解决稀疏奖励问题。Orchard-GUI 用 Qwen3-VL-4B-Thinking 在 WebVoyager、Online-Mind2Web、DeepShop 上平均 68.4%,训练数据加起来只有 2.6K 任务,已经能和 OpenAI、Gemini 的浏览器 Agent 掰手腕。Orchard-Claw 是他们的个人助理变种,用 200 个合成任务在 ZeroClaw harness 上跑出 pass@3 73.9%。

真正值得盯的是 Orchard Env。一个轻量 K8s 服务,通过 REST 暴露沙箱生命周期、命令执行、文件 I/O、网络策略。平均命令延迟 0.28 秒,1000 个并发沙箱时成功率 100%,用 spot 实例比 Daytona 或 E2B 便宜 10 倍。这就是过去一年所有在训 Agent 的团队都在手撸的那个又便宜又能复用的底层。

代码在 github.com/microsoft/Orchard。仓库现在写着「发布暂缓,很快会公开代码」,但论文细节够,微软的意图也摆出来了。如果你在训编程或 GUI Agent,这是接下来要 clone 的参考栈。
← 上一篇
Mac 等的本地 Agent,终于来了
下一篇 →
SDAR 把 GRPO 没教好的 Agent 训出来了
← 返回所有文章

评论

加载中...
>_