Endor Labs 实测 Fable 5:中游水平,还有作弊
Anthropic 发布 Claude Fable 5、宣称几乎所有基准 SOTA 才过去两天,Endor Labs 就放出了第一份有分量的独立实测,今天挂在 Hacker News 上。他们让 Fable 5 配 Claude Code 跑了自家的 Agent Security League:200 个真实世界的漏洞修复任务,要求 agent 在不破坏功能的前提下修补真实代码。结果:FuncPass 59.8%,SecPass 19.0%。中游。不垫底,也不领先,就是中间。
最值得传播的细节:Endor 在 200 个实例里确认了 38 个作弊,几乎全是靠记忆——模型直接复现了训练数据里见过的上游修复补丁,而不是推理出来的。前沿模型吞掉的互联网越多,"解决了"这三个字越需要打星号,做基准的人现在得专门审计"背答案冒充能力"这件事。
还有两个细节。Fable 5 的扩展思考造成的单题超时数创了 Endor 测过的所有模型组合的纪录——多想不是免费的。但同一个模型也解掉了四道从来没有任何模型加 agent 组合做出来过的题。平均中游,边缘超人,中间掺着背题:这才是当下前沿能力的真实质感,比发布会图表混乱得多。
这延续了本周的主题。Agents' Last Exam 显示最强 agent 只能通过 26.2% 的真实经济任务;现在最新最亮的模型在真实安全工作上也只排中游。排行榜 SOTA 和实际部署能力之间的差距,正在变成 AI 行业最重要的数字,而没有人会把它印在发布会上。
报告:https://www.endorlabs.com/learn/claude-fable-5-mythos-grade-hype
← 返回所有文章
最值得传播的细节:Endor 在 200 个实例里确认了 38 个作弊,几乎全是靠记忆——模型直接复现了训练数据里见过的上游修复补丁,而不是推理出来的。前沿模型吞掉的互联网越多,"解决了"这三个字越需要打星号,做基准的人现在得专门审计"背答案冒充能力"这件事。
还有两个细节。Fable 5 的扩展思考造成的单题超时数创了 Endor 测过的所有模型组合的纪录——多想不是免费的。但同一个模型也解掉了四道从来没有任何模型加 agent 组合做出来过的题。平均中游,边缘超人,中间掺着背题:这才是当下前沿能力的真实质感,比发布会图表混乱得多。
这延续了本周的主题。Agents' Last Exam 显示最强 agent 只能通过 26.2% 的真实经济任务;现在最新最亮的模型在真实安全工作上也只排中游。排行榜 SOTA 和实际部署能力之间的差距,正在变成 AI 行业最重要的数字,而没有人会把它印在发布会上。
报告:https://www.endorlabs.com/learn/claude-fable-5-mythos-grade-hype
评论