Benchspan:14時間のエージェント評価を数分に
SWE-benchを1回走らせるのに14時間。誰も十分な頻度でやっていない。これがBenchspanの解決する問題だ。
Benchspan(benchspan.com、YC支援)はエージェントベンチマークプラットフォームで、各インスタンスが独立したDockerコンテナで並列実行される。14時間のSWE-bench?数分で完了。エージェントを起動するbashスクリプトを書いて、Benchspanに向けるだけ。フレームワークロックインなし、インターフェース準拠なし。
ワークフロー:ベンチマークライブラリから選ぶ(SWE-bench Verified、SWE-bench Lite、Terminal-Bench、HumanEval、MBPP、MATH、GPQA)か、自前のものを持ち込む。インスタンス数を設定して実行。結果はすべて — スコア、トラジェクトリ、トークン使用量、レイテンシ、カスタムメトリクス — チーム全体が見れる検索可能なダッシュボードに集約。コミットハッシュでタグ付けされ再現性を保証。
賢い機能は選択的リラン。インスタンスが1つ失敗した?それだけをリラン。ベンチマーク全体を再実行する必要なし。これだけでエージェント品質を改善するチームの月間コンピュートコストを数千ドル削減できるだろう。
創業者はAvi AroraとRitesh Malpani、サンフランシスコ拠点。本日Product Huntでローンチ。
エージェント評価は、コーディングエージェントが実際に改善しているのか見かけだけなのかを決定する地味なインフラだ。評価サイクルが14時間なら週1回。数分なら毎コミット実行できる。それがエージェントエコシステム全体の開発速度を変える。
← Back to all articles
Benchspan(benchspan.com、YC支援)はエージェントベンチマークプラットフォームで、各インスタンスが独立したDockerコンテナで並列実行される。14時間のSWE-bench?数分で完了。エージェントを起動するbashスクリプトを書いて、Benchspanに向けるだけ。フレームワークロックインなし、インターフェース準拠なし。
ワークフロー:ベンチマークライブラリから選ぶ(SWE-bench Verified、SWE-bench Lite、Terminal-Bench、HumanEval、MBPP、MATH、GPQA)か、自前のものを持ち込む。インスタンス数を設定して実行。結果はすべて — スコア、トラジェクトリ、トークン使用量、レイテンシ、カスタムメトリクス — チーム全体が見れる検索可能なダッシュボードに集約。コミットハッシュでタグ付けされ再現性を保証。
賢い機能は選択的リラン。インスタンスが1つ失敗した?それだけをリラン。ベンチマーク全体を再実行する必要なし。これだけでエージェント品質を改善するチームの月間コンピュートコストを数千ドル削減できるだろう。
創業者はAvi AroraとRitesh Malpani、サンフランシスコ拠点。本日Product Huntでローンチ。
エージェント評価は、コーディングエージェントが実際に改善しているのか見かけだけなのかを決定する地味なインフラだ。評価サイクルが14時間なら週1回。数分なら毎コミット実行できる。それがエージェントエコシステム全体の開発速度を変える。
Comments