当前位置:主页 > 业界 > 正文

性能硬刚Blackwell、能效吊打GPU,一文深度拆解谷歌TPU“真实战力”

发布时间:2025-11-25 已有: 位 网友关注

  在AI算力领域,英伟达似乎是那个不可一世的霸主。但在聚光灯之外,科技巨头谷歌正在用一种更为隐秘却极具破坏力的方式,重新定义AI芯片的战争规则。

  如果你以为这只是谷歌为了省钱搞的“备胎”,那就大错特错了。根据最新披露的深度资料,谷歌最新的TPU v7不仅在显存容量上追平了英伟达的B200,更在能效比上实现了对GPU的降维打击。甚至连黄仁勋本人也曾暗示,在ASIC领域,谷歌TPU是一个“特殊的存在”。

  从TPU v6 到最新曝光的 TPU v7 ,谷歌不仅是在造芯,更是在为即将到来的“AI推理时代”构建一道几乎不可逾越的护城河。

  缘起:一场“被迫”的生存自救

  TPU的故事并非始于芯片制造的突破,而是始于一道令谷歌高层惊出一身冷汗的数学题。

  2013年,Jeff Dean与Google Brain团队进行了一次推演:如果每一位Android用户每天只使用3分钟的语音,谷歌就需要将全球数据中心的容量翻倍才能应对算力负载。

  当时的谷歌依赖通用的CPU和GPU,但这些芯片对于深度学习中海量的矩阵乘法运算来说,效率太低了。如果沿用旧硬件扩张,财务和物流成本将是一场噩梦。

  于是,谷歌决定走一条从未走过的路:为TensorFlow神经网络量身定制一款ASIC芯片。

  这个项目进展神速,从设计概念到数据中心部署仅用了15个月。2015年,在外界还一无所知时,TPU就已经在默默支撑谷歌地图、照片和翻译等核心业务了。

  架构之争:甩掉“包袱”,让数据像血液一样流动

  为什么TPU的能效能吊打GPU?这要从底层架构说起。

  GPU是为图形处理设计的“通用”并行处理器,为了处理从游戏纹理到科学模拟的各种任务,它背负了沉重的“架构包袱”——比如复杂的缓存、分支预测和线程管理,这些都消耗了大量的芯片面积和能耗。

  而TPU则极其“极简主义”。它剥离了光栅化、纹理映射等所有无关硬件,采用了一种独特的“脉动阵列”架构。

  在传统GPU中,每次计算都需要在内存和计算单元之间搬运数据,形成了著名的“冯·诺依曼瓶颈”。而在TPU的脉动阵列中,数据像血液流过心脏一样流过芯片。这大幅减少了对HBM的读写次数,让芯片把时间花在计算上,而不是等待数据上。

  这种设计让TPU在“每焦耳运算量”上拥有碾压级的优势。

  虽然谷歌对性能数据一向讳莫如深,但根据Semianalysis和内部透露的数据,谷歌最新的TPU v7 展现出了惊人的代际跨越。

  在互联技术上,谷歌使用了光路交换机和3D环面网络。

  与英伟达的InfiniBand相比,OCS极其节省成本和功耗,因为它消除了光电转换。虽然牺牲了一定的灵活性,但在处理特定AI任务时,配合谷歌的编译器,其效率无人能敌。

  更值得注意的是能效。谷歌在Hot Chips 2025上透露,v7的每瓦性能比v6e提升了100%。有前谷歌高管直言:“针对特定应用,TPU能提供比GPU高出1.4倍的每美元性能。”对于动态模型训练,TPU的速度甚至是GPU的5倍。

  逃离“英伟达税”,重回高毛利时代

  对于投资者和云厂商而言,TPU最大的价值不仅仅是快,而是利润率。

  在AI时代,云巨头们面临着从“寡头垄断”向“大宗商品化”的滑坡。因为必须采购英伟达的GPU,高达75%的毛利被英伟达拿走了,云厂商的AI业务毛利从传统的50-70%骤降至20-35%,甚至更像是一个收过路费的“公用事业公司”。

  如何回到高毛利时代?自研ASIC是唯一的解药。

  谷歌通过掌控TPU的全栈设计,成功绕开了“英伟达税”。与此同时,Broadcom的毛利远低于英伟达,这让谷歌能够将算力成本压到极致。

  一位客户在使用对比后坦言:

  如果我用8张H100,对比使用一个v5e Pod,后者的每美元性能不仅更高,而且随着谷歌推出新一代TPU,旧款不仅不会淘汰,反而会变得极其便宜。有时候如果愿意多等几天训练时间,成本甚至能降到原来的五分之一。

  尽管TPU面临着生态系统和多云部署的挑战,但随着AI工作负载从“训练”向“推理”转移,CUDA的重要性在降低。

  谷歌在超大规模计算厂商中的芯片霸权无人能及,TPU v7在性能上足以与Nvidia Blackwell处于同一梯队。

  在AI算力这场万亿美金的博弈中,英伟达虽然领跑,但手握TPU利剑的谷歌,或许是唯一一个能完全掌握自己命运的玩家。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。