2026年4月14日Benchmark Agents Research

N-Day-Bench：你的 LLM 真能找 Bug，还是只会谈论 Bug？

代码生成有基准，代码审查有基准，连代码解释都有基准。N-Day-Bench 问了一个更尖锐的问题：你的 LLM 能在真实代码库里找到真实的安全漏洞吗？而且是训练截止日期之后才披露的那种。

设置很直接。模型有 24 步 shell 操作来探索来自 GitHub 安全公告的实际漏洞代码，然后写一份结构化的漏洞报告。不给补丁。不给提示。只有代码和截止时间。

2026 年 4 月的一轮刚刚出结果，GPT-5.4 以 83.93% 领跑，GLM-5.1 紧随其后 80.13%，Claude Opus 4.6 拿到 79.95%，GPT-5.3 是 77.81%，Gemini 3.1 Pro 68.50%。跟静态基准不同，N-Day-Bench 每月更新新漏洞并重测最新模型版本，所以你不能靠背旧 CVE 来刷分。

但 Hacker News 讨论暴露了真实问题。有人发现 Claude Opus 4.6 拿到了优秀评分，但实际上连目标文件都没找到，看起来是从训练数据里幻觉出了发现。创建者也承认误报率仍然很高。这个基准还在完善中，不是圣经。

但它仍然是唯一一个自适应的安全基准，衡量前沿模型能否在真实条件下充当漏洞发现 agent。每月更新的节奏意味着排行榜真的反映当前能力，而不是六个月前的快照。

https://ndaybench.winfunc.com

← 上一篇

CodeTracer：给调试代码的 AI Agent 做调试

GitHub 每日之星 — 2026年04月15日

← 返回所有文章

加载中...

N-Day-Bench：你的 LLM 真能找 Bug，还是只会谈论 Bug？

更多文章

评论