2026年5月11日ResearchBenchmarkAgents

SREGym 问了那个枯燥的问题:你的 agent 真的能跑生产吗?

SREGym 这周在 arXiv 放出来。Cornell、UIUC、多伦多大学合作。定位是这样的——目前所有 agent benchmark 都是玩具。WebArena 是购物车,SWE-bench 是 GitHub issue,AgentBench 是杂项任务。SRE 这群人——半夜三点生产着火被 page 出来的——一直没有 agent benchmark。SREGym 是第一次尝试。

90 个真实 SRE 问题,跑在用真实云原生栈搭起来的活系统环境上。多层注入故障——应用、容器、网络、存储。环境带噪声,模拟真实生产。复杂失败模式包括 metastable failure 和 correlated failure,这两类是人类 SRE 花时间最多的,简单 benchmark 完全测不到。架构是模块化的,可以继续往里加故障类型。

他们用前沿 agent 跑了一遍,核心结论——按失败类型不同,端到端结果差距高达 40%。这个 gap 才是结构上重要的数。意味着 SRE-agent 不存在单一排行榜。一个搞定 metastable failure 的 agent 可能在 correlated failure 上直接跪,反过来也一样。SRE 工作的异质性,被现有的单分 benchmark 一直藏着。

这事对 agent 栈为什么重要——SRE 是经典的 24x7 高风险场景。认证挂、客服宕机、钱在出血。一个 agent 搞不定,就拿不到集群钥匙。SREGym 这个 eval 是 agent ops 到底是真东西还是营销话术的闸门。跟本周早些时候的 DELEGATE-52 配套——那个测出所有前沿模型有 25% 静默文档损坏率,是同一类 agent 可靠性研究,把 demo 和生产之间的 gap 翻出来。

再注意一下论文出处——Cornell + UIUC + 多伦多。三个大学团队联合做了一个带真实故障注入、跑在真云栈上的生产级 benchmark。学院派 agent 研究在往生产现实靠拢,不是越走越远。arxiv.org/abs/2605.07161。
← 上一篇
小红书 HyperEyes:agent 工具调用次数砍到原来的 1/5。横着搜,别竖着搜。
下一篇 →
Web Speed 干掉「token 税」:用确定性 DOM-to-JSON 把 web agent 砍便宜 90%
← 返回所有文章

评论

加载中...
>_