一份来自The Information的报道在2025年11月引发了AI芯片市场的剧烈震荡。Meta正在与谷歌洽谈价值数十亿美元的张量处理单元采购协议,最早可能从2026年开始租用谷歌云平台的TPU,并在2027年直接购买这些定制芯片部署到自己的数据中心。
这一消息导致英伟达股价在盘前交易中下跌超过3%,而Alphabet股价则上涨超过4%,市值逼近4万亿美元。更深层的意义在于,这可能是英伟达长达十年的绝对垄断地位首次遭遇真正的结构性挑战。
Meta在2025年的资本支出预计高达720亿美元,其中绝大部分用于AI基础设施建设,主要就是购买英伟达的GPU。如果这家社交媒体巨头真的转向谷歌TPU,其象征意义远超实际交易金额。这将验证一个关键论断:在AI工作负载日益专业化的今天,针对特定任务优化的定制芯片可以在性价比上挑战通用GPU的霸权。
谷歌内部的一些高管认为,如果能成功拿下Meta等大客户,TPU业务有潜力获取英伟达年收入的10%左右。考虑到英伟达在2025财年数据中心业务收入已突破2000亿美元,这个10%意味着200亿美元的市场空间,足以改变行业格局。
这笔潜在交易的背景是AI芯片供应链的结构性紧张。英伟达H100和最新的Blackwell系列GPU虽然性能强大,但供应一直紧张且价格高昂。Meta作为全球最大的AI基础设施建设者之一,迫切需要寻找替代方案来确保算力供应的稳定性和多样性。
更重要的是,Meta自己也在开发定制AI芯片,与谷歌在TPU上的经验和技术积累可能形成互补。从风险管理的角度,过度依赖单一供应商在地缘政治不确定性加剧的今天显得尤为危险。
定制芯片的技术博弈与经济账本
谷歌TPU的技术优势在于其针对神经网络计算的专门优化。作为专用集成电路,TPU在执行大规模矩阵运算时展现出显著的能效优势。根据谷歌云的官方数据,最新的TPU v6e在AI推理任务上的性价比可达英伟达H100 GPU的四倍。这种经济性对于需要大规模部署AI服务的公司极具吸引力。谷歌最新发布的Ironwood TPU pod可提供42.5 exaflops的计算能力,单个pod包含超过9200颗芯片,相比上一代产品性能提升超过10倍。
对谷歌来说,拿下 Meta 将是一次巨大的成功。 盖蒂图片社
这种性能提升并非空穴来风。TPU的架构设计从一开始就围绕张量运算优化,采用脉动阵列等专门技术。谷歌在开发TPU时深度结合了TensorFlow框架的特性,使得软硬件协同达到最优。最关键的是,谷歌自己的Gemini系列模型就是在TPU上训练和部署的,这为其他客户提供了可信的技术验证。Anthropic在2025年10月与谷歌签署的协议,将其TPU使用量扩大到多达100万颗芯片,正是基于其团队在使用TPU时观察到的优异性价比。
但TPU并非完美无缺。其最大的局限在于灵活性。作为专用芯片,TPU针对特定类型的计算进行了深度优化,但在处理动态计算图、自定义操作或不符合其脉动阵列设计的模型架构时会遇到困难。相比之下,英伟达GPU是通用计算平台,几乎可以运行任何类型的AI模型和算法。这种灵活性在研究阶段尤为重要,当研究人员需要快速尝试各种新架构和算法时,GPU的通用性提供了无可替代的价值。
英伟达最强大的护城河其实不是硬件本身,而是CUDA生态系统。自2006年发布以来,CUDA已经发展成为拥有超过400万开发者的庞大软件平台。几乎所有主流的机器学习框架都针对CUDA进行了深度优化,无数的代码库、工具链和最佳实践都建立在CUDA之上。
这种近二十年的积累形成了强大的网络效应和转换成本。即使TPU在某些特定任务上性能更优,将整个软件栈迁移到TPU平台所需的工程投入也是巨大的。这正是英伟达在回应Meta-谷歌谈判时强调的核心论点:英伟达提供的是唯一能够运行所有AI模型并在所有计算环境中运行的平台。
然而,这道看似坚不可摧的护城河正在面临新的挑战。随着AI应用从研究阶段进入大规模生产部署阶段,工作负载的特征正在发生变化。训练阶段仍然需要高度的灵活性和强大的计算能力,但推理部署阶段更看重性价比和能效。对于Meta这样每天处理数十亿次AI推理请求的公司,如果TPU能够在推理任务上提供显著的成本优势,即使需要为此投入大量工程资源进行适配,长期来看也是划算的。更何况,PyTorch等主流框架已经开始提供对TPU的原生支持,降低了迁移门槛。
市场格局重塑与战略选择的多维博弈
这场芯片竞争的本质是垂直整合与开放生态之间的较量。谷歌采取的是垂直整合策略,从芯片设计到云平台到AI模型形成完整闭环。这种模式在优化整体效率方面具有天然优势,但历史上往往难以在开放市场上取得主导地位。苹果的M系列芯片获得成功是因为它只需要服务苹果自己的产品线,但谷歌如果要让TPU成为通用的AI芯片平台,就必须说服其他公司放弃已经熟悉的英伟达生态系统。
Meta的潜在选择折射出大型科技公司在AI时代的共同焦虑:对关键技术的控制权。过去几年,几乎所有科技巨头都启动了自研芯片项目。亚马逊开发了Trainium和Inferentia,微软设计了Maia芯片,Meta也有自己的MTIA项目。这些努力的动机是多方面的:降低对外部供应商的依赖,针对自身工作负载进行优化,以及在技术演进中保持战略主动权。但自研芯片需要巨大的长期投入且风险极高,采用谷歌TPU可以作为过渡方案,既能获得定制芯片的部分优势,又不需要承担完全自主研发的全部风险和成本。
英伟达对这一挑战的回应值得关注。黄仁勋在公开场合强调,谷歌仍然是英伟达的客户,Gemini模型可以在英伟达硬件上运行。他引用DeepMind CEO德米斯·哈萨比斯的短信,强调AI的"扩展规律"仍然有效——即更大的模型在更多芯片上训练会产生更好的性能。这实际上在传递一个信息:在快速演进的AI前沿研究中,GPU的通用性和灵活性仍然不可或缺。英伟达最新的Blackwell架构据称在性能上领先业界整整一代,这种技术领先是其最核心的竞争优势。
Meta与谷歌的潜在交易是否能最终达成仍然存在变数。The Information的报道引发市场关注,但具体的合同条款、技术细节和实施时间表都未明朗。即使交易达成,从谈判到实际部署也需要数年时间,这期间技术格局可能发生新的变化。但这一事件本身已经发出了明确信号:英伟达在AI芯片领域的绝对垄断正在面临前所未有的挑战。CUDA构筑的护城河虽然依然坚固,但已经出现了第一道裂痕。在未来几年,这道裂痕是会逐渐扩大还是被修复,将决定AI基础设施的权力格局,并深刻影响整个AI产业的经济学。