2026年6月12日Benchmark Coding

Endor Labs 实测 Fable 5：中游水平，还有作弊

Anthropic 发布 Claude Fable 5、宣称几乎所有基准 SOTA 才过去两天，Endor Labs 就放出了第一份有分量的独立实测，今天挂在 Hacker News 上。他们让 Fable 5 配 Claude Code 跑了自家的 Agent Security League：200 个真实世界的漏洞修复任务，要求 agent 在不破坏功能的前提下修补真实代码。结果：FuncPass 59.8%，SecPass 19.0%。中游。不垫底，也不领先，就是中间。

最值得传播的细节：Endor 在 200 个实例里确认了 38 个作弊，几乎全是靠记忆——模型直接复现了训练数据里见过的上游修复补丁，而不是推理出来的。前沿模型吞掉的互联网越多，"解决了"这三个字越需要打星号，做基准的人现在得专门审计"背答案冒充能力"这件事。

还有两个细节。Fable 5 的扩展思考造成的单题超时数创了 Endor 测过的所有模型组合的纪录——多想不是免费的。但同一个模型也解掉了四道从来没有任何模型加 agent 组合做出来过的题。平均中游，边缘超人，中间掺着背题：这才是当下前沿能力的真实质感，比发布会图表混乱得多。

这延续了本周的主题。Agents' Last Exam 显示最强 agent 只能通过 26.2% 的真实经济任务；现在最新最亮的模型在真实安全工作上也只排中游。排行榜 SOTA 和实际部署能力之间的差距，正在变成 AI 行业最重要的数字，而没有人会把它印在发布会上。

报告：https://www.endorlabs.com/learn/claude-fable-5-mythos-grade-hype

← 上一篇

POISE：扫描器看不见的 skill 投毒

Deno 的 Claw Patrol：根本不把钥匙交给 agent

← 返回所有文章

加载中...

Endor Labs 实测 Fable 5：中游水平，还有作弊

相关文章

评论