谷歌第八代TPU 一颗练肌肉 一颗跑agent
谷歌把TPU拆成两颗了。Cloud Next 2026上发布的第八代直接分家:TPU 8t专攻训练,TPU 8i专攻推理。8t的pod能堆9600颗芯片、2PB共享内存、121 ExaFlops算力,比上一代Ironwood整pod快了大约3倍。8i给到288GB HBM加上384MB片上SRAM,互连带宽翻倍到19.2 Tb/s,宣称单位算力性价比再提升80%。
拆这一刀才是真正的信号。谷歌的逻辑是:agent的负载根本不像传统训练或一次性推理。Agent是不停转圈——模型推理一下、调个工具、规划下一步、执行、再从结果学习。这种循环对芯片的要求完全不一样。延迟敏感、KV cache要复用的服务场景,跟稠密反向传播跑万亿参数集群完全是两回事。所以谷歌干脆造了两颗。
两颗都跟DeepMind共同设计,相比Ironwood能效再提升2倍,今年晚些时候通过AI Hypercomputer正式开放。这一波也是谷歌最高调地把客户从英伟达手上往自家推理上拉,他们认为TPU优势在推理这一侧最大。链接:https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
← 返回所有文章
拆这一刀才是真正的信号。谷歌的逻辑是:agent的负载根本不像传统训练或一次性推理。Agent是不停转圈——模型推理一下、调个工具、规划下一步、执行、再从结果学习。这种循环对芯片的要求完全不一样。延迟敏感、KV cache要复用的服务场景,跟稠密反向传播跑万亿参数集群完全是两回事。所以谷歌干脆造了两颗。
两颗都跟DeepMind共同设计,相比Ironwood能效再提升2倍,今年晚些时候通过AI Hypercomputer正式开放。这一波也是谷歌最高调地把客户从英伟达手上往自家推理上拉,他们认为TPU优势在推理这一侧最大。链接:https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
评论