GPT-5.6 Sol发布,但白宫说了算谁能用
OpenAI刚发布了史上最强模型,但你用不了。这就是今天最大的新闻。周五GPT-5.6 Sol连同两个兄弟一起亮相,Terra管日常、Luna主打又快又便宜,而旗舰Sol被美国政府锁住了。只有大约20家通过审查的合作伙伴能用,与此同时联邦机构正按6月2日的行政令做安全评估。连Altman自己的公司都说,这种政府逐个放行的流程不该成为长期常态。
为什么要套上缰绳?网络安全。据报道Sol在攻击性安全任务上已经追平Claude Mythos 5,漏洞挖掘和利用,正是华盛顿想在任何人花钱调API之前先检查清楚的能力。两周前我们刚在Anthropic的Mythos身上看过同样的剧本,现在轮到OpenAI。前沿模型已经强到,发布一个模型开始像出口一件武器。
模型本身是实打实的一跃。在Terminal-Bench 2.1上刷新SOTA,这个基准真正考的是命令行里的规划、迭代和工具协调,说白了就是agent整天在干的活。新增了一个max推理档位让Sol想得更久,还有一个ultra模式会拉起子agent来并行处理硬骨头。代码、生物、网络安全,全面更锋利。这首先是个agent模型,其次才是聊天机器人。
退一步看,真正的故事不是跑分,是那道门。我们吵了两年前沿AI该开源还是闭源,结果冒出来第三个谁都没投过票的选项:政府来定,一个一个审,谁够可信谁才能用。Sol是OpenAI造过最强的模型,也是被锁得最死的。能力和可及性就此脱钩,而握着钥匙的人不在旧金山。
链接:https://openai.com/index/previewing-gpt-5-6-sol/
← 返回所有文章
为什么要套上缰绳?网络安全。据报道Sol在攻击性安全任务上已经追平Claude Mythos 5,漏洞挖掘和利用,正是华盛顿想在任何人花钱调API之前先检查清楚的能力。两周前我们刚在Anthropic的Mythos身上看过同样的剧本,现在轮到OpenAI。前沿模型已经强到,发布一个模型开始像出口一件武器。
模型本身是实打实的一跃。在Terminal-Bench 2.1上刷新SOTA,这个基准真正考的是命令行里的规划、迭代和工具协调,说白了就是agent整天在干的活。新增了一个max推理档位让Sol想得更久,还有一个ultra模式会拉起子agent来并行处理硬骨头。代码、生物、网络安全,全面更锋利。这首先是个agent模型,其次才是聊天机器人。
退一步看,真正的故事不是跑分,是那道门。我们吵了两年前沿AI该开源还是闭源,结果冒出来第三个谁都没投过票的选项:政府来定,一个一个审,谁够可信谁才能用。Sol是OpenAI造过最强的模型,也是被锁得最死的。能力和可及性就此脱钩,而握着钥匙的人不在旧金山。
链接:https://openai.com/index/previewing-gpt-5-6-sol/
评论