从Anthropic的百万美元TPU豪赌看中国AI芯片市场未来
在刚刚过去的几个月里,全球AI芯片市场发生了一场几乎无人预料到的剧变:谷歌的TPU从一个长期被视为“内部玩具”的芯片,突然变成了能与英伟达正面叫板的商业武器。而这场变革的导火索,是一笔价值超过500亿美元的超级订单。
故事要从2024年说起。那时候,如果你问任何一个半导体分析师,英伟达的GPU霸权会受到什么挑战,他们大概率会说AMD的MI系列,或者我国某个神秘芯片。但几乎没有人会把目光投向谷歌。毕竟,TPU这款芯片从2016年诞生以来,一直都是谷歌的“私房菜”,外界虽然知道它很强,但谷歌似乎压根没有把它推向市场的打算。
然而,2025年的秋天,一切都变了。Anthropic——那个训练出Claude的公司——宣布了一笔惊天大单:向谷歌购买超过100万颗TPU,总价值高达520亿美元。其中40万颗将由Anthropic直接购买放入自己的数据中心,另外60万颗则通过谷歌云租用。这不仅是TPU历史上最大的外部订单,更意味着谷歌正式从一个云服务商转型为真正的芯片供应商,直接与英伟达在商业市场上短兵相接。如今,当全世界最顶尖的两个AI大模型Claude和Gemini都在用TPU,这就不得不引出我们要思考的问题:在当前芯片供应备受市场关注的前提下,TPU对中国芯片市场来说是不是另一条出路?TPU到底有什么优势?
要理解这笔交易的逻辑,我们得先搞清楚一个问题:TPU到底强在哪里?
从纸面参数看,最新一代的TPU v7 Ironwood在算力和内存带宽上与英伟达的GB200相差无几,只有大约10%的差距。但关键在于价格。根据SemiAnalysis的测算,谷歌内部采购TPU的总体拥有成本比GB200低了大约44%。即使是外部客户通过谷歌云租用,成本也能比GB300低30%到41%。
这个价格优势从何而来?答案藏在商业模式里。英伟达卖的不只是GPU,而是整个系统——CPU、交换机、网卡、内存、线缆、连接器,全部都要赚一道利润。而谷歌虽然也要付给博通不菲的代工费,但整体利润空间被压缩得更少。简单来说,买英伟达的系统就像去高档餐厅吃饭,每道菜都要单独付费而且价格不菲;而TPU更像是自助餐,虽然品质同样上乘,但总账单要友好得多。
但价格只是一方面。更让业内震惊的是TPU在实际性能上的表现。谷歌最新的Gemini 3模型,那个在多项评测中被视为最先进前沿大模型的产品,完全是在TPU上训练出来的。Anthropic的Claude 4.5 Opus同样有大量训练任务跑在TPU上。当全世界最顶尖的两个AI模型都在用TPU,这本身就是对这款芯片最有力的背书。
在芯片圈有一句老话:系统比微架构更重要。这句话在TPU身上得到了完美验证。
早在2017年,当英伟达还在用传统方式连接GPU的时候,谷歌就已经在用自研的ICI互联协议把TPU组成大规模集群了。TPU v7的单个集群可以包含9216颗芯片,通过三维环面拓扑结构直接互联,而英伟达最大的NVLink域也只有72颗GPU。这意味着在训练超大规模模型时,TPU可以实现更高效的通信和更低的延迟。
谷歌的网络架构还有一个独特之处:大量使用光学电路交换机而非传统的电子分组交换机。这种设计不仅功耗更低,而且可以灵活地重新配置网络拓扑,把故障节点绕过去,大大提升了整个集群的可用性。在AI训练这种动辄几周甚至几个月的任务中,集群稳定性的价值怎么强调都不为过。
面对谷歌的强势崛起,英伟达显然坐不住了。就在Anthropic大单消息传出后不久,英伟达官方账号发布了一条颇为微妙的推文,大意是“我们很高兴看到谷歌的成功,我们仍然领先一代”。这种主动发声在英伟达历史上极为罕见,足见他们有多紧张。
更耐人寻味的是英伟达的“防御策略”。根据报告披露,英伟达正在通过股权投资而非降价的方式来留住大客户。OpenAI和Anthropic都从英伟达或其合作伙伴那里获得了数十亿美元的股权支持,作为交换,它们承诺继续使用英伟达的产品。OpenAI虽然还没有真正部署TPU,但仅仅是“威胁要买TPU”这一招,就让他们在GPU采购上获得了约30%的折扣。
这种做法透露出一个信号:英伟达不愿意降价,因为那会伤害毛利率,引发投资者恐慌。但如果不降价,客户就会转向TPU。于是只能用股权投资这种“曲线救国”的方式来维持关系。问题是,这种策略能持续多久?
当然,英伟达仍然有一张王牌:CUDA生态系统。过去十几年,全球数百万开发者在CUDA上积累的代码和经验,构成了一道几乎无法逾越的护城河。
但谷歌正在全力攻克这道壁垒。从2025年开始,谷歌在PyTorch TPU支持、vLLM推理框架、SGLang等开源项目上的投入大幅增加。他们正在开发"原生"TPU后端,让PyTorch程序可以像在GPU上一样流畅地运行在TPU上。他们还开源了大量内部优化的TPU内核,包括针对混合专家模型优化的通信重叠GEMM内核。
不过谷歌的软件策略仍有一个致命短板:XLA编译器和TPU运行时的核心代码至今没有开源。这导致外部开发者在遇到问题时常常束手无策,无法像调试CUDA程序那样深入底层排查。SemiAnalysis的分析师们认为,如果谷歌能像当年开源Linux和PyTorch那样开放TPU核心软件,将会极大地加速TPU的生态建设。
Anthropic只是第一个吃螃蟹的。根据报告,Meta、xAI、SSI甚至OpenAI都在与谷歌洽谈TPU采购事宜。Meta作为PyTorch的主要维护者,之前曾在2020到2023年间使用过TPU,但因为体验不佳而放弃。这次谷歌专门为Meta开发原生PyTorch后端,显然是在极力争取这个大客户。
更有意思的是,这场TPU热潮正在重塑整个数据中心产业链。由于谷歌自身的数据中心扩张受限于电力供应和繁琐的合同审批流程,他们开始与Fluidstack等新兴云服务商合作,由后者负责运营TPU集群,谷歌提供信用背书。这种模式让原本做加密货币挖矿的公司找到了新的出路——它们现有的电力基础设施和数据中心空间,正好可以用来托管TPU服务器。
回到我们的标题:TPU是我国芯片的最佳出路吗?
这个问题或许可以换一个角度来思考。我国在先进制程芯片方面依然有差距,但TPU的故事告诉我们,在AI时代,芯片的价值不仅仅取决于制程领先程度,更取决于系统设计、软件优化和生态建设的综合能力。
谷歌TPU使用的并不是最先进的制程——TPU v6用的是台积电5纳米,和上一代几乎相同的工艺——但通过把每个脉动阵列的规模从128x128扩大到256x256,算力直接翻倍。这说明架构创新可以弥补制程差距。
对我国而言,在制程竞赛中追赶那些领跑者同时,也不要忘记另辟蹊径:专注于系统级优化、开发特定领域的加速器、建设开放的软件生态。这正是谷歌TPU成功的秘诀,也可能是中国芯片产业实现弯道超车的最佳路径之一。
当然,这条路并不容易。谷歌从2006年开始研究AI专用芯片,到2016年推出第一代TPU,再到如今成为英伟达的真正对手,用了将近20年时间。我们要走这条路,需要的不仅是资金和人才,更是持续投入的战略定力。
但无论如何,TPU的崛起至少证明了一点:英伟达的霸权并非不可撼动。在这个AI定义一切的时代,游戏规则正在被改写。而规则的改写者,未必需要掌握最先进的芯片制造技术。