2026年5月11日Research Benchmark Agents

SREGym 问了那个枯燥的问题：你的 agent 真的能跑生产吗？

SREGym 这周在 arXiv 放出来。Cornell、UIUC、多伦多大学合作。定位是这样的——目前所有 agent benchmark 都是玩具。WebArena 是购物车，SWE-bench 是 GitHub issue，AgentBench 是杂项任务。SRE 这群人——半夜三点生产着火被 page 出来的——一直没有 agent benchmark。SREGym 是第一次尝试。

90 个真实 SRE 问题，跑在用真实云原生栈搭起来的活系统环境上。多层注入故障——应用、容器、网络、存储。环境带噪声，模拟真实生产。复杂失败模式包括 metastable failure 和 correlated failure，这两类是人类 SRE 花时间最多的，简单 benchmark 完全测不到。架构是模块化的，可以继续往里加故障类型。

他们用前沿 agent 跑了一遍，核心结论——按失败类型不同，端到端结果差距高达 40%。这个 gap 才是结构上重要的数。意味着 SRE-agent 不存在单一排行榜。一个搞定 metastable failure 的 agent 可能在 correlated failure 上直接跪，反过来也一样。SRE 工作的异质性，被现有的单分 benchmark 一直藏着。

这事对 agent 栈为什么重要——SRE 是经典的 24x7 高风险场景。认证挂、客服宕机、钱在出血。一个 agent 搞不定，就拿不到集群钥匙。SREGym 这个 eval 是 agent ops 到底是真东西还是营销话术的闸门。跟本周早些时候的 DELEGATE-52 配套——那个测出所有前沿模型有 25% 静默文档损坏率，是同一类 agent 可靠性研究，把 demo 和生产之间的 gap 翻出来。

再注意一下论文出处——Cornell + UIUC + 多伦多。三个大学团队联合做了一个带真实故障注入、跑在真云栈上的生产级 benchmark。学院派 agent 研究在往生产现实靠拢，不是越走越远。arxiv.org/abs/2605.07161。

← 上一篇

小红书 HyperEyes：agent 工具调用次数砍到原来的 1/5。横着搜，别竖着搜。

Web Speed 干掉「token 税」：用确定性 DOM-to-JSON 把 web agent 砍便宜 90%

← 返回所有文章

加载中...

SREGym 问了那个枯燥的问题：你的 agent 真的能跑生产吗？

相关文章

评论