2026年7月5日Infrastructure Open Source

GLM-5.2跑在AMD上，成本只有英伟达一半

Wafer把GLM-5.2放到AMD的MI355X上跑，把数字公开了，现在到处在传的是他们自己那句话：CUDA的护城河正在实时崩塌。他们做到单节点每秒2626个token，单流213个——大概是英伟达B200的八成——成本却低了两倍还多。MI355X每张卡比B300便宜大约2.75倍。也就是说你放弃五分之一的速度，付不到一半的钱。对任何要规模化跑模型的人来说，这笔账根本不用算。

有意思的不是速度，是那个诊断。Wafer说AMD的差距从来不在硅片，在软件支持。他们用AMD的Quark把GLM-5.2量化成MXFP4，跑在sglang上，把卡着投机解码和MoE kernel选择的bug修掉。管路一通，硬件本来就在那儿。用他们的话说，AMD上做到SOTA，正在变成一个支持问题，不是硅片问题。

这就是让英伟达CFO睡不着觉的那个故事，只不过这回是用一个具体的、前沿级的开源模型讲出来的，不是一张PPT。英伟达硬件的全部溢价，都押在一个假设上：CUDA是一条十年深、没人跨得过去的软件护城河。每一次有人当众带着真实模型的真实吞吐数字跨过去，这个假设就变便宜一点，推理成本也跟着便宜一点。

而且干这事的偏偏是个开源中国模型，不是巧合。GLM-5.2你能下载、能随便量化。这实验你在一个闭源API上做不了。开源权重加上更便宜的硅片，才是真正能给整个栈施压的组合。

链接：wafer.ai/blog/glm52-amd

← 上一篇

Matt Pocock把.claude文件夹传上GitHub，15万star

要测agent记忆，他们让它去打《杀戮尖塔》

← 返回所有文章

加载中...

GLM-5.2跑在AMD上，成本只有英伟达一半

相关文章

评论