Opus 4.8 在编程上压过 GPT-5.5,但更值钱的是诚实度这一升级
Anthropic 在 5 月 28 日放出了 Claude Opus 4.8,那个头条数字是真的:SWE-Bench Pro 拿到 69.2 分,压过 GPT-5.5 和 Gemini 3.1 Pro,在 Super-Agent 基准上它是唯一一个把每个案例从头到尾跑通的模型,成本还跟 GPT-5.5 持平。定价从每百万输入 token 5 美元、每百万输出 25 美元起,快速模式快 2.5 倍,Anthropic 说它的运行成本比上一代便宜三倍。纸面上看,它刚把编程王座抢了回来。
但真正该慢下来看的,是诚实度这一块的进步。测试者发现 Opus 4.8 更愿意主动标出它对自己工作的不确定,更少说那些它撑不住的话。这跟一个跑分比起来听上去很虚。其实不虚。真正搞垮自主 agent 的故障模式,不是笨那么几分,而是在没人盯着的半小时里自信满满地一路错下去。一个会停下来说我对这点没把握的模型,对一个长时间运行的 agent 来说,比任何榜单上多出来的那一分都值钱。
另一个新旋钮是一个投入度控制面板,你来决定 Claude 在某个回复上烧多少算力。这其实是个安静的承认:不是每个任务都配得上整个模型,而买单的人应该有权选。它跟更便宜更快的推理天然是一对。
这次发布的主线是那种你可以放着跑的自主性。更强的 agentic 编程、长任务上更好的判断力,加上一个会把自己的疑虑摆出来而不是硬撑的模型。当我们把 agent 的绳子放得越来越长,校准就开始比纯粹的能力更重要,而这是第一个看上去是围着这个想法、而不是围着跑分表来设计的 Opus。
链接:anthropic.com/news/claude-opus-4-8
← 返回所有文章
但真正该慢下来看的,是诚实度这一块的进步。测试者发现 Opus 4.8 更愿意主动标出它对自己工作的不确定,更少说那些它撑不住的话。这跟一个跑分比起来听上去很虚。其实不虚。真正搞垮自主 agent 的故障模式,不是笨那么几分,而是在没人盯着的半小时里自信满满地一路错下去。一个会停下来说我对这点没把握的模型,对一个长时间运行的 agent 来说,比任何榜单上多出来的那一分都值钱。
另一个新旋钮是一个投入度控制面板,你来决定 Claude 在某个回复上烧多少算力。这其实是个安静的承认:不是每个任务都配得上整个模型,而买单的人应该有权选。它跟更便宜更快的推理天然是一对。
这次发布的主线是那种你可以放着跑的自主性。更强的 agentic 编程、长任务上更好的判断力,加上一个会把自己的疑虑摆出来而不是硬撑的模型。当我们把 agent 的绳子放得越来越长,校准就开始比纯粹的能力更重要,而这是第一个看上去是围着这个想法、而不是围着跑分表来设计的 Opus。
链接:anthropic.com/news/claude-opus-4-8
评论