新闻资讯-歌剧话剧

谷歌的新一代TPU,什么水平?

在上周 Google Cloud Next 2025 大会的预发布会以及随后的主题演讲中,谷歌高层不断将“Ironwood” TPU v7p 系统与劳伦斯利弗莫尔国家实验室的“El Capitan”超级计算机进行比较。他们一直搞错了,这让我们很恼火。

对于大型人工智能系统进行这样的比较是完全合理的,即使在一个案例(El Capitan)中,机器的主要目的是运行传统的高性能计算(HPC)仿真和建模工作负载,而在另一个案例(Ironwood Pod)中,机器根本无法进行高精度浮点运算,实际上只是为了进行人工智能训练和推理而设计的。从某种意义上说,一台同时使用CPU和GPU混合架构进行计算的机器,由于其广泛的数值类型和计算精度以及广泛的工作负载,更像是一台通用机器,而且这种机器架构的价值在于它的多用途性。

但事实证明,劳伦斯利弗莫尔的 El Capitan 和阿贡国家实验室的“Aurora”等百亿亿次级机器可以与使用定制 XPU 加速器构建的机器相媲美,并且由于美国政府能源部与超级计算机制造商达成的优惠交易,我们认为这些机器的性价比高于谷歌使用自有机器的费用,并且远低于其向租用 TPU 访问 AI 工作负载的客户收取的费用。

以下是我们看到的图表之一:

在这项数学计算中,谷歌将 El Capitan 的持续性能与 Ironwood pod 的理论峰值性能进行了比较,前者搭载 44,544 个 AMD“Antares-A”Instinct MI300A 混合 CPU-GPU 计算引擎,以 64 位浮点精度运行高性能 LINPACK (HPL) 基准测试,后者搭载 9,216 个 TPU v7p 计算引擎。

这是一个非常愚蠢的比较,谷歌的高层不仅应该更清楚这一点,而且他们也确实做到了。但或许更重要的是,性能只是问题的一半。你还必须考虑计算成本。高性能必须以尽可能低的成本实现,而没有人比美国政府能源部在高性能计算 (HPC) 设备上的优惠更划算。

在缺乏大量数据的情况下,我们对现代AI/HPC系统进行了性价比分析,其中许多系统基于CPU和GPU的组合,后者来自AMD或Nvidia,而CPU在原始计算方面并不那么重要。请看下图:

我们意识到,这种比较并不完美。谷歌和亚马逊网络服务的定价包含三年的系统租赁费用,这当然也包括电力、冷却、设施和管理成本。对于图中所示的许多超级计算机,预算涵盖了三到四年的设施、电力和冷却费用,我们已尽力不包含任何非经常性工程 (NRE) 成本,这些成本用于使机器在现场运行和调试。对于各种人工智能机器,我们提供了机器大小和成本的估算(这些信息无法获取)。

所有估计值均以粗体红色斜体显示,对于目前无法做出估计的值,我们会用问号标记。

我们仅展示了采用 3D 环面互连技术,将 TPU 系统连接成相当大的 Pod 的 TPU 系统。上一代“Trillium” TPU v6e 系统也同样如此,它只能在 2D 环面拓扑中扩展到 256 个计算引擎。

正如您所料,在过去四年中,尽管机器性能有所提升,但 FP64 高精度以及 FP16 和 FP8 低精度处理的成本却有所下降。这当然是好事。但机器成本却在快速上涨,以至于我们所谓的“能力级”AI 超级计算机现在要花费数十亿美元。(想想上图所示的 xAI“Colossus”机器,它是去年安装的。)

在上表中,我们计算了在承诺使用折扣(CUD)下租用 Google TPU Pod 的成本。CUD 类似于 Amazon Web Services 的预留实例定价,并为长期承诺提供折扣。传统的 HPC 超级计算机通常使用三年,有时甚至四年,因此这是一个很好的比较点。Ironwood TPU Pod 的预估定价假设 Google 采取了一定的激进策略,就像它从 TPU v4 Pod 过渡到 TPU v5p Pod 时一样。

现在,让我们来澄清一下。一个 Ironwood TPU v7p pod 在 FP16 分辨率下的额定速度为 21.26 exaflops,在 FP8 分辨率下则为 42.52 exaflops,是其两倍。该 pod 拥有 1.69 PB 的 HBM 内存,我们估计其建造成本约为 4.45 亿美元,三年的租金则超过 11 亿美元。算下来,谷歌能够以每万亿次浮点运算约 21 美元的价格使用一个包含 9,216 个 Ironwood TPU 的 Ironwood pod,而租用它的价格约为每万亿次浮点运算 52 美元。

El Capitan 计算机由惠普企业制造,耗资劳伦斯利弗莫尔实验室 6 亿美元,在 FP16 分辨率下,峰值性能下每秒万亿次浮点运算的成本为 14 美元。由于英特尔在阿贡国家实验室的“Aurora”计算机中减记了 3 亿美元,因此该能源部实验室仅为该 AI/HPC 系统支付了 2 亿美元,这意味着其在 FP16 精度下每秒可执行 16.1 百亿亿次浮点运算,而每秒万亿次浮点运算的成本仅为 12 美元。Aurora 计算机的“Ponte Vecchio”GPU 与 El Capitan 的 MI300A ceepie-geepies和 Ironwood pod 的 TPU v7p 引擎不同,它们不支持 FP8 处理,但它们支持 INT8 处理,就像 3D 环面设置中使用的前两代谷歌 TPU 一样。

FP8 和 INT8 格式可以使任何拥有它的机器的性价比翻倍,并且它的工作负载可以利用它;FP4 可以在 Nvidia 的“Blackwell”GPU 上使用,并将添加到未来的 XPU AI 计算引擎中,使性价比再次翻倍。

为了简单起见,我们将 HPC 的性能标准化为 FP64,将 AI 的性能标准化为 FP16,但添加了 FP8 或 INT8 处理的列。目前,公司将尽可能在训练和推理过程中坚持使用浮点格式,最终将弃用 INT16、INT8 和 INT4 格式。

AWS P5 UltraCluster 是使用 Nvidia “Hopper” H100 GPU 构建的集群的典范,这些集群将在 2022 年末、2023 年全年以及 2024 年初投入使用。我们计算了租用一个包含 2 万个 GPU 的集群的成本,然后根据当时 H100 的市场价格和其他系统成本估算出购置成本。微软 Azure 和谷歌云构建类似的机器以及将其容量出租给最终用户的成本大致相同。事实上,AWS 和微软锁定了 GPU 实例的价格,这可能合法,也可能不合法。

如果我们的估算准确,那么 Ironwood 集群对于谷歌而言,其构建成本和客户租赁成本,大约只有性能相近的 H100 集群的三分之一,而使用的计算引擎数量还不到后者的一半。(至少以插槽数量衡量是如此。)

但最后,让我们明确一点。El Capitan 在 FP16 和 FP8 分辨率下的性能比 Ironwood 的峰值理论性能高出 2.05 倍,而 Ironwood 的性能并非 El Capitan 的 24 倍。诚然,El Capitan 在 FP64 精度下拥有 2.73 exaflops 的峰值性能,而 Ironwood 却没有,而且 El Capitan 在 FP64 模式下的 HPL 性能为 1.74 exaflops。

我们目前还没有El Capitan 的HPL-MxP 结果,但我们预计在 6 月份于汉堡举行的 ISC 2025 大会上会公布结果。HPL-MxP 使用大量混合精度计算,在 HPL 测试中收敛到与全 FP64 数学相同的结果,目前已实现约一个数量级的有效性能提升。这种混合精度的使用引领了如何针对低精度数学定制和提升实际 HPC 应用程序,从而在相同硬件上完成更多工作,或使用更少的硬件完成相同工作。

https://www.nextplatform.com/2025/04/17/stacking-up-googles-ironwood-tpu-pod-to-other-ai-supercomputers/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4098期内容,欢迎关注。

『半导体第一垂直媒体』

标签: 谷歌 tpu hpc pod hpl