2026年3月29日ResearchBenchmarkCoding

SlopCodeBench:首个衡量编码智能体迭代退化的基准测试

SlopCodeBench 是一个全新的基准测试,它以真实软件开发的方式评估编码智能体——通过反复的需求变更和功能扩展。与 SWE-Bench 等单次基准测试不同,SlopCodeBench 给智能体一个初始规格说明,然后迫使它们在 93 个检查点上多次扩展自己的代码。

结果令人警醒:在 11 个测试模型中,没有任何智能体能够端到端解决 20 个问题中的任何一个。最高检查点通过率仅为 17.2%。更令人担忧的是,代码质量持续下降——80% 的轨迹中代码侵蚀上升,89.8% 的轨迹中冗余度增加。智能体生成的代码比等效的开源仓库冗余 2.2 倍,结构侵蚀也明显更严重。

最引人注目的发现是:指导智能体编写整洁代码的质量感知提示虽然减少了初始冗余和侵蚀,但并不能减缓退化速率、提高通过率或降低成本。退化似乎是迭代式智能体编码的固有属性,而非提示工程的失败。

SlopCodeBench 作为一个开放的、社区驱动的评估工具发布,拥有专属网站和 MIT 许可的 GitHub 仓库。支持评估 Claude Code、OpenAI 模型和 Google 模型,并可配置不同的深度思考级别。

对于在实际项目中部署编码智能体的团队而言,这项基准测试首次提供了关于智能体代码质量如何随持续开发变化的实证证据——而结果并不乐观。

论文:[arxiv.org/abs/2603.24755](https://arxiv.org/abs/2603.24755) | GitHub:[github.com/SprocketLab/slop-code-bench](https://github.com/SprocketLab/slop-code-bench) | 网站:[scbench.ai](https://www.scbench.ai/)
← 上一篇
CrabTalk:8MB 的 Rust 开源智能体守护进程
← 返回所有文章

评论

加载中...
>_