新闻资讯-歌剧话剧

谷歌发布第七代 TPU!

4月9日,在谷歌云 Next 25 大会上,谷歌推出了第七代张量处理单元(TPU)Ironwood。这是谷歌迄今为止性能最强、扩展性最佳的定制化人工智能加速器,也是首款专门为推理设计的 TPU。十多年来,TPU 一直为谷歌要求最严苛的人工智能训练和服务工作负载提供支持,也助力谷歌的云服务客户实现了同样的目标。

Ironwood 的推出标志着人工智能及其基础设施的发展出现了重大转变。这是从能够为人们提供实时信息以供解读的响应式人工智能模型,向能够主动生成见解和解读的模型的转变。这就是我们所说的 “推理时代”,在这个时代,人工智能智能体将主动检索和生成数据,以协作的方式提供见解和答案,而不仅仅是数据。

Ironwood 的设计初衷是为了满足生成式人工智能下一阶段的发展需求,以及其巨大的计算和通信要求。它可扩展至 9216 个液冷芯片,这些芯片通过突破性的芯片间互连(ICI)网络连接,功耗接近 10 MW。Ironwood 是谷歌云人工智能超级计算机架构的多个新组件之一,该架构将硬件和软件进行了优化组合,以应对要求最严苛的人工智能工作负载。借助 Ironwood,开发人员还可以利用谷歌自研的 Pathways 软件栈,可靠且轻松地整合数万个 Ironwood TPU 的计算能力。

接下来,让我们深入了解这些创新是如何协同工作的,从而以无与伦比的性能、成本效益和能效,应对要求最严苛的训练和服务工作负载。

Ironwood 助力推理时代

Ironwood 旨在出色地处理 “思维模型” 复杂的计算和通信需求,这些模型包括大语言模型(LLM)、专家混合模型(MoE)以及高级推理任务。这些模型需要大规模并行处理和高效的内存访问。特别是,Ironwood 的设计旨在在进行大规模张量操作时,最大限度地减少芯片上的数据移动和延迟。在前沿领域,思维模型的计算需求远远超出了任何单个芯片的处理能力。谷歌为 Ironwood TPU 设计了低延迟、高带宽的 ICI 网络,以在全 TPU 集群规模下支持协调、同步的通信。

对于谷歌云的客户,Ironwood 根据人工智能工作负载的需求提供两种规格:256 芯片配置和 9216 芯片配置。

当每个集群可扩展到 9216 个芯片,总计算能力达到 42.5 exaflops 时,Ironwood 的计算能力是世界上最大的超级计算机 El Capitan的 24 倍多,后者每个集群的计算能力仅为 1.7 exaflops。Ironwood 提供了处理要求最严苛的人工智能工作负载所需的大规模并行处理能力,例如超大型密集型大语言模型或具备思维能力的专家混合模型的训练和推理。每个芯片的峰值计算能力达到 4614 TFLOPs,这标志着人工智能能力的巨大飞跃。Ironwood 的内存和网络架构确保在如此大规模的计算下,始终能获取合适的数据以支持其峰值性能。

Ironwood还配备了增强型的SparseCore,这是一种专为处理超大型嵌入而设计的加速器,这种嵌入在高级排序和推荐工作负载中很常见。Ironwood 中扩展的SparseCore支持使得更多类型的工作负载能够被加速,包括超越传统AI领域,延伸到金融和科学领域。

Pathways 是谷歌 DeepMind 开发的一种自有的机器学习运行框架,能够在多个 TPU 芯片上实现高效的分布式计算。在谷歌云上使用 Pathways 可以轻松突破单个 Ironwood 集群的限制,能够将数十万个 Ironwood 芯片组合在一起,迅速推动生成式人工智能计算的发展。
下图,显示了 TPU 性能的逐步提升

图 1. 相对于谷歌首款面向外部云服务的 TPU——TPU v2,总 FP8 峰值浮点运算性能的提升情况。

图2. 云TPU产品3D环面版本的技术规格并排比较,包括最新一代Ironwood。FP8峰值TFlops在v4和v5p中是模拟的,但在Ironwood中是原生支持的。

谷歌云是唯一一家拥有超过十年人工智能计算服务经验的超大规模云服务提供商,这些服务支持前沿研究,并无缝集成到为数十亿用户提供服务的诸如 Gmail、谷歌搜索等全球级服务中。所有这些专业技术都是 Ironwood强大能力的核心所在。其关键特性包括:

在显著提升性能的同时注重能效,使人工智能工作负载能够以更具成本效益的方式运行。Ironwood的性能功耗比是谷歌去年推出的第六代 TPU Trillium的两倍。在可用功率成为提供人工智能能力的限制因素之一的当下,谷歌为客户的工作负载提供了每瓦更高的计算能力。谷歌先进的液冷解决方案和优化的芯片设计,即使在持续繁重的人工智能工作负载下,也能可靠地维持高达标准风冷两倍的性能。事实上,Ironwood的能效比谷歌 2018 年推出的首款云 TPU 高出近 30 倍。

大幅增加了高带宽内存(HBM)容量。Ironwood每个芯片提供 192GB 的内存,是Trillium的 6 倍,这使得它能够处理更大的模型和数据集,减少了频繁数据传输的需求,进而提升了性能。

显著提升了 HBM 带宽,每个芯片达到 7.2 TBps,是Trillium的 4.5 倍。如此高的带宽确保了快速的数据访问,这对于现代人工智能中常见的内存密集型工作负载至关重要。

增强了芯片间互连(ICI)带宽。双向带宽已提升至 1.2 Tbps,是Trillium的 1.5 倍,实现了芯片之间更快的通信,有助于大规模高效地进行分布式训练和推理。

图 3. 相对于最早一代云 TPU v2,谷歌 TPU 能效的提升情况。以每个芯片封装的热设计功耗每瓦所提供的峰值 FP8 浮点运算次数来衡量。

Ironwood 满足未来的人工智能需求

Ironwood 在推理时代实现了独特的突破,它提升了计算能力、内存容量,在 ICI 网络方面取得了进展,并且增强了可靠性。这些突破,再加上能效提升近两倍,意味着我们要求最严苛的客户能够以最高的性能和最低的延迟处理训练和服务工作负载,同时满足计算需求的指数级增长。如今,像 Gemini 2.5 这样的领先思维模型以及获得诺贝尔奖的 AlphaFold 都在 TPU 上运行。我们迫不及待地想看到,今年晚些时候 Ironwood 正式推出后,谷歌的开发人员和谷歌云的客户会在人工智能领域取得怎样的突破。

标签: 谷歌 tpu 张量 ici tflops