2026年4月28日ResearchBenchmarkAgents

SciCrafter说前沿模型卡在26%

一个新的agent benchmark叫SciCrafter,结果已经够让所有把自主发现当卖点的人尴尬了。

setup是Minecraft里的参数化红石电路任务。agent要按指定pattern点亮一组灯。难度通过参数变化来scale——记忆没用,必须真做实验。他们测了GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5。三个全都卡在26%成功率。

论文真正落地的是失败分解。作者把失败拆成四个capacity gap——knowledge gap identification(识别知识空缺)、experimental discovery(实验发现)、knowledge consolidation(知识整合)、knowledge application(知识应用)。诚实的发现是——瓶颈正在转向问题formulation。前沿模型能做实验,能吸收结果,难的是想清楚要问什么问题。这是个有意思的卡点,因为这不是行业一直在投钱的方向。

Minecraft这个框定很关键。挑任何一个流量大的agent benchmark——SWE-bench、WebArena之类——失败模式都像是执行失败(代码错、动作错)。SciCrafter的结构让失败模式变成发现失败。这是不同形状的评测,正好接上过去两周的eval crisis集群(SWE-bench Verified污染、DIVERT的over-spending发现、ClawMark的coworker任务分数)。一条主线——每个benchmark从不同角度切,都在显示前沿模型在不同地方触顶。

团队放了代码。项目页 https://scicrafter-bench.github.io/,GitHub https://github.com/scicrafter-bench/scicraft-bench,论文 https://arxiv.org/abs/2604.24697。
← 上一篇
英国AI安全研究所测试Claude会不会破坏AI安全研究
下一篇 →
Skye拿$358万押注agent化的iPhone主屏
← 返回所有文章

评论

加载中...
>_