现在的AI硬件竞赛,硝烟已经料峭。
谷歌最新的TPU v5p刚刚出炉,性能比之前翻倍,理论上已经开始逼近甚至超越英伟达的顶级GPU。
别看硬件性能硬碰硬,实用性还差点意思。
TPU的优势在哪?
它最擅长的是深度学习的矩阵运算,特别是在谷歌云平台上的效果显著。
用一句话总结:在谷歌自家的AI服务中,TPU比GPU快30%到100%,还能省电、省钱。
可是,要是真讲生态和开放,TPU就吃亏了——封闭、开发工具不成熟、绑定谷歌云,限制多多。
这也是为什么它始终难以大规模替代GPU。
谷歌今年12月的TPU v5p发布,性能惊人:单芯片能跑到459 TFLOPS,比上一代提升两倍多。
还能支持多达8960个芯片连在一起,内存带宽也飙升至2765GB/s。
这性能,放在纸面上,绝对吊打英伟达H100 GPU的395 TFLOPS,但实际上用起来效果还需观察。
谷歌还在不断完善生态,比如新版本的PyTorch/XLA支持,开发体验明显改善。
云端也开始支持GPU和TPU混合调度,灵活性增加了不少。
市场份额方面,数据显示今年第一季度,TPU在全球AI基础设施中的占比从去年8%上涨到15%。
大部分增长得益于谷歌云和大型模型开发商的使用。
英伟达依旧占据主导地位,市场份额高达72%。
不过英伟达的新GPU,比如H200,能效比又提升30%,差距在逐渐缩小。
价格方面,谷歌云在三月把TPU的价格降了20%,还提供长时间使用的优惠,明显是要通过降价抢夺市场份额。
行业动态也在变,除了谷歌,AWS也推出了Trainium和Inferentia,微软还找AMD合作共推AI芯片。
云巨头们的意图很明显,想降低对英伟达的依赖,打造属于自己的硬件生态。
未来,AI硬件竞争可能变成“三国演义”。
英伟达的GPU因其通用性强、生态完备,依旧稳坐钓鱼台。
谷歌则更专注于深度优化特定场景的TPU。
其他云平台也在布局,行业格局也许会更加多元。
总的来看,硬件性能虽是硬道理,但真正决定成败的,还得看生态和战略。
英伟达的软件、工具链和多场景适应能力,仍然是关键优势。
谷歌虽然在性能上追赶,但生态闭环让它走得还很艰难。
未来一两年,这场GPU与TPU的博弈,会更激烈,市场也会更复杂。
终端用户要选硬件,得看自己用场景偏向哪一边。
性能只是选择的一个要素,生态和兼容性才是真正的决定因素。