新闻资讯-歌剧话剧

谷歌 TPU v7 来袭:性能对表,英伟达颤抖?

芯榜消息:谷歌推首款 AI 推理特化版 TPU 芯片

当地时间 4 月 9 日,在 “Google Cloud Next 25” 大会上,谷歌正式推出了首款 AI 推理特化版 TPU 芯片,代号为 “Ironwood”,也就是 TPU v7 。该芯片专为深度思考模型打造,性能实现了巨大飞跃。

TPU v7 的 FP8 峰值算力高达 4614TFlops,相较于 2017 年的第二代 TPU,性能提升了 3600 倍,对比 2023 年的第五代 TPU 也有 10 倍的增长。其在扩展性方面表现突出,最高配集群可配备 9216 个液冷芯片,峰值算力达到惊人的 42.5 ExaFlops,即每秒能够运算 42500000000000000000 次,是目前全球最强超级计算机 EL Capitan 的 24 倍 。

当前,AI 正从响应式向主动生成洞察和解读转变。以 DeepSeek-R1 和谷歌 Gemini Thinking 为代表的深度思考推理模型,多采用 MoE(混合专家)架构。这类架构虽激活参数量相对较少,但总参数量巨大,对大规模并行处理和高效内存访问需求迫切,单个芯片难以满足其计算需求。TPU v7 正是基于此设计,在执行大规模张量操作时,最大程度减少芯片上的数据移动和延迟。与上一代 TPU v6 相比,TPU v7 的高带宽内存 (HBM) 容量提升至 192GB,为上一代的 6 倍,单芯片内存带宽也提高到 7.2 TBps,是上一代的 4.5 倍。同时,TPU v7 系统具备低延迟、高带宽的 ICI(芯片间通信)网络,双向带宽提升至 1.2 Tbps,为上一代的 1.5 倍,且每瓦性能是上一代的两倍 。

在硬件升级的基础上,TPU v7 还在软硬协同方面进行了优化。它配备了增强版 SparseCore,用于处理高级排序和推荐工作负载中常见的超大嵌入。并且支持 Google DeepMind 开发的机器学习运行时 Pathways,可跨多个 TPU 芯片实现高效分布式计算 。

谷歌计划在不久后将 TPU v7 整合到谷歌云 AI 超算中,为推荐算法、Gemini 模型以及 AlphaFold 等业务提供支持。消息一经发布,便引发网友热议,不少人认为英伟达或将面临巨大竞争压力。从参数对比来看,TPU v7 的 FP8 算力 4614 TFlops 略高于英伟达 B200 标称的 4.5 PFlops(4500 TFlops),内存带宽 7.2TBps 稍低于英伟达 B200 的 8TBps,二者基本处于可对标水平 。除谷歌外,亚马逊的 Trainium、Inferentia 和 Graviton 芯片,以及微软的 MAIA 100 芯片也在发力 AI 芯片领域,这表明 AI 芯片市场的竞争正日趋激烈。

(完)

4月11日(本周五),聚焦“AI+智能硬件”,共探行业新局

华强电子网+芯榜+深科技+亚太芯谷:AI眼镜、DeepSeek、AloT、硬件出海、AI芯片散热等主题。

标签: 谷歌 英伟达 tpu 谷歌tpu tpuv7