GLM-5.2跑在AMD上,成本只有英伟达一半
Wafer把GLM-5.2放到AMD的MI355X上跑,把数字公开了,现在到处在传的是他们自己那句话:CUDA的护城河正在实时崩塌。他们做到单节点每秒2626个token,单流213个——大概是英伟达B200的八成——成本却低了两倍还多。MI355X每张卡比B300便宜大约2.75倍。也就是说你放弃五分之一的速度,付不到一半的钱。对任何要规模化跑模型的人来说,这笔账根本不用算。
有意思的不是速度,是那个诊断。Wafer说AMD的差距从来不在硅片,在软件支持。他们用AMD的Quark把GLM-5.2量化成MXFP4,跑在sglang上,把卡着投机解码和MoE kernel选择的bug修掉。管路一通,硬件本来就在那儿。用他们的话说,AMD上做到SOTA,正在变成一个支持问题,不是硅片问题。
这就是让英伟达CFO睡不着觉的那个故事,只不过这回是用一个具体的、前沿级的开源模型讲出来的,不是一张PPT。英伟达硬件的全部溢价,都押在一个假设上:CUDA是一条十年深、没人跨得过去的软件护城河。每一次有人当众带着真实模型的真实吞吐数字跨过去,这个假设就变便宜一点,推理成本也跟着便宜一点。
而且干这事的偏偏是个开源中国模型,不是巧合。GLM-5.2你能下载、能随便量化。这实验你在一个闭源API上做不了。开源权重加上更便宜的硅片,才是真正能给整个栈施压的组合。
链接:wafer.ai/blog/glm52-amd
← 返回所有文章
有意思的不是速度,是那个诊断。Wafer说AMD的差距从来不在硅片,在软件支持。他们用AMD的Quark把GLM-5.2量化成MXFP4,跑在sglang上,把卡着投机解码和MoE kernel选择的bug修掉。管路一通,硬件本来就在那儿。用他们的话说,AMD上做到SOTA,正在变成一个支持问题,不是硅片问题。
这就是让英伟达CFO睡不着觉的那个故事,只不过这回是用一个具体的、前沿级的开源模型讲出来的,不是一张PPT。英伟达硬件的全部溢价,都押在一个假设上:CUDA是一条十年深、没人跨得过去的软件护城河。每一次有人当众带着真实模型的真实吞吐数字跨过去,这个假设就变便宜一点,推理成本也跟着便宜一点。
而且干这事的偏偏是个开源中国模型,不是巧合。GLM-5.2你能下载、能随便量化。这实验你在一个闭源API上做不了。开源权重加上更便宜的硅片,才是真正能给整个栈施压的组合。
链接:wafer.ai/blog/glm52-amd
评论