March 29, 2026ResearchBenchmarkCoding

SlopCodeBench:コーディングエージェントの反復タスクにおける品質劣化を測定する初のベンチマーク

SlopCodeBench は、実際のソフトウェア開発の方法——繰り返しの要件変更と機能拡張——でコーディングエージェントを評価する新しいベンチマークである。SWE-Bench のような単発ベンチマークとは異なり、エージェントに初期仕様を与えた後、93のチェックポイントにわたって新しい要件が到着するたびに自身のコードを拡張することを強���する。

結果は厳しいものだった。テストした11モデル全体で、20問のうち1問も端から端まで解けたエージェントはゼロ。最高チェックポイント通過率はわずか17.2%。さらに懸念されるのは、コード品質が着実に低下することだ——80%のトラジェクトリでコード侵食が上昇し、89.8%で冗長性が増加。エージェント生成コードは同等のオープンソースリポジトリと比べて2.2倍冗長で、構造的侵食も著しく悪化していた。

最も注目すべき発見は、クリーンなコードを書くよう指示する品質意識型プロンプトが初期の冗長性と侵食を減少させる一方で、劣化速度の鈍化、通過率の改善、コスト削減にはつながらなかったことだ。この劣化は反復的エージェントコーディングの固有の性質であり、プロンプトエンジニアリングの失敗ではないようだ。

SlopCodeBench はオープンなコミュニティ駆動型評価ツールとしてリリースされ、専用ウェブサイトと MIT ライセンスの GitHub リポジトリを持つ。Claude Code、OpenAI、Google のモデル評価に対応している。

論文:[arxiv.org/abs/2603.24755](https://arxiv.org/abs/2603.24755) | GitHub:[github.com/SprocketLab/slop-code-bench](https://github.com/SprocketLab/slop-code-bench) | ウェブサイト:[scbench.ai](https://www.scbench.ai/)
← Previous
CrabTalk:8MB の Rust 製オープンソース・エージェントデーモン
Next →
Cline Kanban:AIエージェント群を統べる司令塔
← Back to all articles

Comments

Loading...
>_