“五百年必有王者兴,其间必有名世者”!
近几日以来,英伟达跌跌不休,相反谷歌则高歌猛进;尤其是谷歌Gemini 3已被“吹上天”的时候,似乎全球AI芯片也到了“改朝换代”的时刻了。根据最新的信息,一些全球顶尖的科技和AI公司正在转向使用谷歌的TPU(张量处理单元),以应对AI算力需求的激增并寻求英伟达GPU之外的替代方案。其中最典型的就是Meta的转向,据美国媒体《The Information》报道,科技巨头Meta正在考虑2027年在其数据中心使用谷歌的张量处理单元(TPU)。那谷歌的TPU,究竟能否撼动英伟达通用GPU的统治地位?
谷歌自研芯片的野心始于2016年。当时为优化搜索排名和广告推荐,谷歌推出第一代TPU,其张量计算单元专为神经网络推理设计。到2023年,TPUv4已实现芯片间光互联,在AlphaFold蛋白质预测等封闭场景展现优势;尤其是在发布第七代Ironwood后,展现了强大的垂直整合能力。
而英伟达则通过不断迭代的GPU架构和难以撼动的软件生态,成为全球AI算力的最强底座。我们可以通过两者的核心参数,进行一下全面的对比。具体如下:
对比维度谷歌 TPU v7 (Ironwood)英伟达 GPU (当前旗舰)核心架构ASIC专用加速器,为AI计算优化通用并行计算GPU (GPGPU),兼顾AI、图形与HPC代表产品Ironwood TPUBlackwell B200, Rubin CPX(已发布,预计2026年底推出)关键性能FP8算力约4.6 PFLOPS;单Pod(9216芯片)达42.5 ExaFLOPSB200: FP8算力约4.5 PFLOPS从以上表格可知,谷歌Ironwood TPU与英伟达GB200各项核心参数相差并不大。谷歌TPU的核心优势在于其超大规模的集群能力。通过光交换网络(OCS)等技术,一个TPU Pod内的9216颗芯片能高效协同工作,像一个巨型计算机,有效消除了训练超大模型时的数据瓶颈。这种架构非常适合需要海量计算单元同时工作的大模型训练和超长上下文推理任务。
而英伟达则采用了不同的思路,通过专用硬件处理特定阶段来提升整体效率。最新发布的Rubin CPX GPU首创地将AI推理分为上下文阶段(理解输入)和生成阶段(产生输出)。这种分工让专业芯片做专业事,使得Rubin机架处理长上下文任务的效率比前代旗舰高出6.5倍。
因此,其实问题还在于,谷歌TPU为单一功能优化的ASIC芯片,始终未能突破搜索、广告、YouTube推荐等谷歌自有业务边界。即便Meta测试TPU,也仅用于内容审核等非核心业务,其训练大模型的数万张加速卡仍是英伟达H100。
其实,生态壁垒才是英伟达真正的护城河——CUDA软件生态系统。经过多年积累,CUDA已成为AI开发的事实标准,尤其与PyTorch、TensorFlow等主流框架结合紧密,开发者社群庞大。在部署上,英伟达GPU提供极大的灵活性,支持公有云、本地数据中心乃至边缘设备等多种场景。
目前,全球排名前50的AI公司中,47家采用CUDA架构开发模型。微软Azure的AI云服务、OpenAI的GPT-5训练集群、特斯拉的自动驾驶系统,清一色搭载英伟达芯片。这种统治力不仅来自硬件——英伟达 AI Enterprise软件栈已形成包含3000个优化库的工具链,而谷歌TPU至今仍依赖TensorFlow框架的有限支持。这些都构成了谷歌难以逾越的迁移成本。
因此,虽然Anthropic将部署高达100万个谷歌TPU芯片用于训练其AI大模型Claude,是谷歌TPU的公开大客户之一;甚至,OpenAI也已开始租用谷歌的TPU为其ChatGPT等AI产品提供算力支持;这确实说明谷歌TPU已经成为AI算力市场中一个日益重要的选项。
但总的来说,这只是反映了整个行业为了突破算力瓶颈、控制成本正在积极寻求多元化的解决方案;而非抛弃占据全球AI芯片90%以上市场的英伟达GPU。