2026年4月23日AgentsCodingBenchmark

GPT-5.5把benchmark打爆了

OpenAI昨天发布了GPT-5.5,数字让之前所有模型都像上辈子的东西。Terminal-Bench 2.0跑出82.7分,GPT-5.4是75.1,Claude Opus 4.7是69.4。Expert-SWE拿到73.1。GPT-5.5 Pro在BrowseComp上打到90.1,Gemini 3.1 Pro只有85.9。Artificial Analysis Intelligence Index上GPT-5.5拿到60分,整整甩开Opus 4.7和Gemini 3.1 Pro Preview(两家都57)3分。

Agent部分才是真正的狠。GDPval这个测真实经济任务的评估,GPT-5.5领先Opus 4.7将近5分。XBOW在他们pentesting评估里说,漏洞漏检率从GPT-5的40%掉到GPT-5.5的10%,而且纯黑盒的GPT-5.5不给源码都能打赢给全部源码的GPT-5。他们原话是GPT-5.5把我们的benchmark杀了。这是Mythos级别的能力,直接推送给每一个Plus订阅用户。

API context window拉到1M tokens,Codex给400K,长上下文检索跳到74分。更重要的是每token延迟和GPT-5.4持平,但同一个任务用的tokens更少。Sam Altman的说法是GPT-5.5让OpenAI离真正的AI super app又近了一步,这次营销话术和数字是对得上的。

做agent的人现在要重新算账了。两个月前Claude Opus 4.7还是硬核agentic coding的默认选项。现在Anthropic在发postmortem解释质量回退问题,OpenAI这边每个跑的benchmark都排第一。从2025年底到现在,钟摆第一次甩回到OpenAI这边。Anthropic大概率会在5月底前出招。

https://openai.com/index/introducing-gpt-5-5/
← 上一篇
GitHub 每日之星 — 2026年04月23日
下一篇 →
Anthropic承认Claude Code变笨了
← 返回所有文章

评论

加载中...
>_