2026年4月28日Research Benchmark Agents

SciCrafter说前沿模型卡在26%

一个新的agent benchmark叫SciCrafter，结果已经够让所有把自主发现当卖点的人尴尬了。

setup是Minecraft里的参数化红石电路任务。agent要按指定pattern点亮一组灯。难度通过参数变化来scale——记忆没用，必须真做实验。他们测了GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5。三个全都卡在26%成功率。

论文真正落地的是失败分解。作者把失败拆成四个capacity gap——knowledge gap identification（识别知识空缺）、experimental discovery（实验发现）、knowledge consolidation（知识整合）、knowledge application（知识应用）。诚实的发现是——瓶颈正在转向问题formulation。前沿模型能做实验，能吸收结果，难的是想清楚要问什么问题。这是个有意思的卡点，因为这不是行业一直在投钱的方向。

Minecraft这个框定很关键。挑任何一个流量大的agent benchmark——SWE-bench、WebArena之类——失败模式都像是执行失败（代码错、动作错）。SciCrafter的结构让失败模式变成发现失败。这是不同形状的评测，正好接上过去两周的eval crisis集群（SWE-bench Verified污染、DIVERT的over-spending发现、ClawMark的coworker任务分数）。一条主线——每个benchmark从不同角度切，都在显示前沿模型在不同地方触顶。

团队放了代码。项目页 https://scicrafter-bench.github.io/，GitHub https://github.com/scicrafter-bench/scicraft-bench，论文 https://arxiv.org/abs/2604.24697。

← 上一篇

英国AI安全研究所测试Claude会不会破坏AI安全研究

Skye拿$358万押注agent化的iPhone主屏

← 返回所有文章

加载中...

SciCrafter说前沿模型卡在26%

相关文章

评论