2026年3月30日Benchmark Infrastructure Coding

Benchspan：把14小时的Agent评测压到几分钟

跑一次SWE-bench要14小时。没人跑得够频繁。这就是Benchspan要解决的问题。

Benchspan（benchspan.com，YC支持）是一个agent评测平台，每个实例在独立的Docker容器里并行运行。14小时的SWE-bench？几分钟搞定。你写一个启动agent的bash脚本，把Benchspan指向它，集成工作就完了。不锁定框架，不要求接口适配。

实际工作流：从他们的benchmark库里选（SWE-bench Verified、SWE-bench Lite、Terminal-Bench、HumanEval、MBPP、MATH、GPQA），或者用你自己的。设置实例数，点运行。所有结果——分数、轨迹、token用量、延迟、自定义指标——都在一个可搜索的dashboard上，整个团队都能看。每次运行按commit hash标记，保证可复现。

聪明的功能是选择性重跑。某个实例失败了？只重跑那个，不用烧掉整个benchmark的算力。光这个功能，大概每月就能给迭代agent质量的团队省下数千美元的计算成本。

创始人Avi Arora和Ritesh Malpani，旧金山团队。产品今天在Product Hunt上线。

Agent评测是决定编程agent是真的在进步还是只是看起来在进步的底层基础设施。当评测周期是14小时时，你一周跑一次。当它变成几分钟时，你每个commit都跑。这改变的是整个agent生态的开发速度。

← 上一篇

Pensieve：给AI Agent做入职培训

Latchkey：Imbue说别折腾MCP了，curl就够用

← 返回所有文章

加载中...

Benchspan：把14小时的Agent评测压到几分钟

更多文章

评论