2026年3月30日BenchmarkInfrastructureCoding

Benchspan:把14小时的Agent评测压到几分钟

跑一次SWE-bench要14小时。没人跑得够频繁。这就是Benchspan要解决的问题。

Benchspan(benchspan.com,YC支持)是一个agent评测平台,每个实例在独立的Docker容器里并行运行。14小时的SWE-bench?几分钟搞定。你写一个启动agent的bash脚本,把Benchspan指向它,集成工作就完了。不锁定框架,不要求接口适配。

实际工作流:从他们的benchmark库里选(SWE-bench Verified、SWE-bench Lite、Terminal-Bench、HumanEval、MBPP、MATH、GPQA),或者用你自己的。设置实例数,点运行。所有结果——分数、轨迹、token用量、延迟、自定义指标——都在一个可搜索的dashboard上,整个团队都能看。每次运行按commit hash标记,保证可复现。

聪明的功能是选择性重跑。某个实例失败了?只重跑那个,不用烧掉整个benchmark的算力。光这个功能,大概每月就能给迭代agent质量的团队省下数千美元的计算成本。

创始人Avi Arora和Ritesh Malpani,旧金山团队。产品今天在Product Hunt上线。

Agent评测是决定编程agent是真的在进步还是只是看起来在进步的底层基础设施。当评测周期是14小时时,你一周跑一次。当它变成几分钟时,你每个commit都跑。这改变的是整个agent生态的开发速度。
← 上一篇
Pensieve:给AI Agent做入职培训
← 返回所有文章

评论

加载中...
>_