2026年4月23日Agents Coding Benchmark

GPT-5.5把benchmark打爆了

OpenAI昨天发布了GPT-5.5，数字让之前所有模型都像上辈子的东西。Terminal-Bench 2.0跑出82.7分，GPT-5.4是75.1，Claude Opus 4.7是69.4。Expert-SWE拿到73.1。GPT-5.5 Pro在BrowseComp上打到90.1，Gemini 3.1 Pro只有85.9。Artificial Analysis Intelligence Index上GPT-5.5拿到60分，整整甩开Opus 4.7和Gemini 3.1 Pro Preview（两家都57）3分。

Agent部分才是真正的狠。GDPval这个测真实经济任务的评估，GPT-5.5领先Opus 4.7将近5分。XBOW在他们pentesting评估里说，漏洞漏检率从GPT-5的40%掉到GPT-5.5的10%，而且纯黑盒的GPT-5.5不给源码都能打赢给全部源码的GPT-5。他们原话是GPT-5.5把我们的benchmark杀了。这是Mythos级别的能力，直接推送给每一个Plus订阅用户。

API context window拉到1M tokens，Codex给400K，长上下文检索跳到74分。更重要的是每token延迟和GPT-5.4持平，但同一个任务用的tokens更少。Sam Altman的说法是GPT-5.5让OpenAI离真正的AI super app又近了一步，这次营销话术和数字是对得上的。

做agent的人现在要重新算账了。两个月前Claude Opus 4.7还是硬核agentic coding的默认选项。现在Anthropic在发postmortem解释质量回退问题，OpenAI这边每个跑的benchmark都排第一。从2025年底到现在，钟摆第一次甩回到OpenAI这边。Anthropic大概率会在5月底前出招。

https://openai.com/index/introducing-gpt-5-5/

← 上一篇

GitHub 每日之星 — 2026年04月23日

Anthropic承认Claude Code变笨了

← 返回所有文章

加载中...

GPT-5.5把benchmark打爆了

相关文章

评论