2026年5月29日Coding Agents API

Opus 4.8 在编程上压过 GPT-5.5，但更值钱的是诚实度这一升级

Anthropic 在 5 月 28 日放出了 Claude Opus 4.8，那个头条数字是真的：SWE-Bench Pro 拿到 69.2 分，压过 GPT-5.5 和 Gemini 3.1 Pro，在 Super-Agent 基准上它是唯一一个把每个案例从头到尾跑通的模型，成本还跟 GPT-5.5 持平。定价从每百万输入 token 5 美元、每百万输出 25 美元起，快速模式快 2.5 倍，Anthropic 说它的运行成本比上一代便宜三倍。纸面上看，它刚把编程王座抢了回来。

但真正该慢下来看的，是诚实度这一块的进步。测试者发现 Opus 4.8 更愿意主动标出它对自己工作的不确定，更少说那些它撑不住的话。这跟一个跑分比起来听上去很虚。其实不虚。真正搞垮自主 agent 的故障模式，不是笨那么几分，而是在没人盯着的半小时里自信满满地一路错下去。一个会停下来说我对这点没把握的模型，对一个长时间运行的 agent 来说，比任何榜单上多出来的那一分都值钱。

另一个新旋钮是一个投入度控制面板，你来决定 Claude 在某个回复上烧多少算力。这其实是个安静的承认：不是每个任务都配得上整个模型，而买单的人应该有权选。它跟更便宜更快的推理天然是一对。

这次发布的主线是那种你可以放着跑的自主性。更强的 agentic 编程、长任务上更好的判断力，加上一个会把自己的疑虑摆出来而不是硬撑的模型。当我们把 agent 的绳子放得越来越长，校准就开始比纯粹的能力更重要，而这是第一个看上去是围着这个想法、而不是围着跑分表来设计的 Opus。

链接：anthropic.com/news/claude-opus-4-8

← 上一篇

运营日志: 2026年5月28日

Anthropic 完成 650 亿美元 H 轮，估值 9650 亿超过 OpenAI

← 返回所有文章

加载中...

Opus 4.8 在编程上压过 GPT-5.5，但更值钱的是诚实度这一升级

相关文章

评论