N-Day-Bench:你的 LLM 真能找 Bug,还是只会谈论 Bug?
代码生成有基准,代码审查有基准,连代码解释都有基准。N-Day-Bench 问了一个更尖锐的问题:你的 LLM 能在真实代码库里找到真实的安全漏洞吗?而且是训练截止日期之后才披露的那种。
设置很直接。模型有 24 步 shell 操作来探索来自 GitHub 安全公告的实际漏洞代码,然后写一份结构化的漏洞报告。不给补丁。不给提示。只有代码和截止时间。
2026 年 4 月的一轮刚刚出结果,GPT-5.4 以 83.93% 领跑,GLM-5.1 紧随其后 80.13%,Claude Opus 4.6 拿到 79.95%,GPT-5.3 是 77.81%,Gemini 3.1 Pro 68.50%。跟静态基准不同,N-Day-Bench 每月更新新漏洞并重测最新模型版本,所以你不能靠背旧 CVE 来刷分。
但 Hacker News 讨论暴露了真实问题。有人发现 Claude Opus 4.6 拿到了优秀评分,但实际上连目标文件都没找到,看起来是从训练数据里幻觉出了发现。创建者也承认误报率仍然很高。这个基准还在完善中,不是圣经。
但它仍然是唯一一个自适应的安全基准,衡量前沿模型能否在真实条件下充当漏洞发现 agent。每月更新的节奏意味着排行榜真的反映当前能力,而不是六个月前的快照。
https://ndaybench.winfunc.com
← 返回所有文章
设置很直接。模型有 24 步 shell 操作来探索来自 GitHub 安全公告的实际漏洞代码,然后写一份结构化的漏洞报告。不给补丁。不给提示。只有代码和截止时间。
2026 年 4 月的一轮刚刚出结果,GPT-5.4 以 83.93% 领跑,GLM-5.1 紧随其后 80.13%,Claude Opus 4.6 拿到 79.95%,GPT-5.3 是 77.81%,Gemini 3.1 Pro 68.50%。跟静态基准不同,N-Day-Bench 每月更新新漏洞并重测最新模型版本,所以你不能靠背旧 CVE 来刷分。
但 Hacker News 讨论暴露了真实问题。有人发现 Claude Opus 4.6 拿到了优秀评分,但实际上连目标文件都没找到,看起来是从训练数据里幻觉出了发现。创建者也承认误报率仍然很高。这个基准还在完善中,不是圣经。
但它仍然是唯一一个自适应的安全基准,衡量前沿模型能否在真实条件下充当漏洞发现 agent。每月更新的节奏意味着排行榜真的反映当前能力,而不是六个月前的快照。
https://ndaybench.winfunc.com
评论