最近很多人都开始分析谷歌 TPU,整体思路其实可以归结为一条主线:过去所有人都痴迷于谁的芯片最快最好,英伟达 vs 全世界。可他们忽略了真正的颠覆:谷歌并不执着于在速度上超越英伟达,它要做的是重新定义 AI 的经济模型,谁能以更低成本、更高效率、更强可扩展性把智能铺到全世界,谁才是终局赢家。
首先,是所谓的“英伟达税”。英伟达的商业模式本质上非常清晰——它是一个纯商业供应商,而非生态运营者。每一块卖给 AWS、Azure、Google Cloud 等云厂商的 H100 / B200 芯片,其定价里都包含着极高的利润率,超过 70% 的毛利并非夸张,而是长期常态。这些成本并不会被英伟达“消化”,而是几乎原封不动地层层传导,最终转嫁到企业客户与开发者身上。也就是说,当你在调用云端的 AI 算力时,本质上你在持续为“英伟达税”买单,这是一种隐形但极其真实的结构性成本。
其次,是谷歌的独特优势,这是当前几乎所有人低估的部分。谷歌不仅是云服务商,更是芯片设计者、光互连提供者、系统架构设计者和应用部署者的综合体。它可以用“制造成本价”去生产 TPU 芯片,因为它并不需要通过卖芯片来盈利,而是通过云服务、广告、订阅、生态来变现。这意味着,谷歌完全掌控着从「芯片 → 光交换 → 数据中心 → 云服务 → 终端用户」的完整闭环链路。这里不存在任何一层“利润叠加”,更不存在被供应商卡住利润空间的问题。这种纵向一体化能力,是目前全球范围内,几乎没有第二家公司能够复制的。
第三,是训练与推理的成本结构正在根本性改变。在大模型发展的早期阶段,所有人都在拼训练:更大的参数规模、更大的数据集、更强的算力,于是“法拉利级别”的芯片(也就是英伟达 GPU)成为刚需。但是,当模型逐渐成熟,真正大规模发生的,是推理需求爆发——是亿级、十亿级用户的日常调用,是企业级、产业级的规模化部署。这个阶段,并不需要永远使用法拉利,更多时候,只要一支稳定、可靠、低成本、可大规模铺开的“半挂卡车”队伍就足够了。而 TPU 在这种场景下的单位成本优势,将变得异常明显。
由此,终极格局开始清晰起来。如果谷歌通过「TPU + 自有光网络 + 极具进攻性的云定价策略」,把单 token 的成本压缩到接近“边际为零”的区间,那么行业的竞争逻辑将发生一次彻底反转。届时,谁的单次运算速度最快已经不再重要,谁的“每一单位智能的成本最低”才是最终的决定因素。换言之,原始算力的领先会让位给“经济模型”的领先,而后者,才是真正的长期护城河。
这不是一场单纯的芯片性能竞赛,而是一场关于计算成本极限的战争。而在这条战线上,谷歌显然占据着一个被严重低估的战略高地。
英伟达贩卖的更像是一台台发电机,而谷歌在做的则是建设电网,用自研 TPU、互连与云平台把算力铺成基础设施,把成本曲线压平,把供给稳定地送到每一个需求端。当算力足够便宜、覆盖足够广,智能就会像电一样成为通用资源,新的商业帝国也就随之诞生。
前面的分析当然是有道理的,但它必须建立在一个根本前提之上:以 Transformer 为核心的大模型范式在未来相当长一段时间内不发生结构性改变。因为 TPU/ASIC 的优势,本质来自“确定性工作负载”,算子形态稳定、通信模式可预测、软硬件协同能被长期优化,单位 token 成本才能被持续压低。
可一旦范式发生变化,ASIC 芯片的优势就会立刻变得脆弱:架构是为特定计算图、特定算子分布、特定内存与互连瓶颈“定制”的,范式一变,等于重新开地图。此时最大的风险不在于“算力不够”,而在于适配成本与迭代周期,要么为新范式重做硬件,要么在旧硬件上做低效迁就,结果就是 ROI 急剧下滑。
这就是为什么 GPU 的价值永远存在,它买的是“灵活性期权”。范式稳定时,ASIC 代表效率极致;范式变动时,GPU 代表生存能力与试错速度。
其实从第一性原理出发,本质就是在“效率”(TPU)与“灵活性”(GPU)之间寻找最优平衡点。而当大模型的范式在相当长一段时间内不发生根本性变化时,这种平衡就会不断向效率端倾斜。谁能以更低的能耗、更高的利用率承载同样甚至更大的模型规模,谁就在算力经济学上占据上风——这也是 TPU 能够不断逼近甚至在部分场景挑战 GPU 的根本原因。