当前位置:主页 > 业界 > 正文

谷歌云CEO:自研TPU构筑竞争护城河,第八代芯片即将发布,外部需求已超供给上限

发布时间:2026-04-25 已有: 位 网友关注

  在全球AI实验室深陷“算力荒”的当下,谷歌正凭借超过十年的自研芯片积累,构筑起一道竞争对手难以的结构性护城河。

  谷歌云CEO Thomas Kurian近日在接受专访时表示,即将公布的第八代TPU将拆分为专注大规模训练的v8T与推理优化的v8i两条独立产品线,单个训练系统可容纳两个Petabyte的内存。外部AI实验室对TPU的需求已远超我们所能满足的上限,并以此作为成本竞争力的最直接佐证:如果我们的成本贵得多,他们根本不会来找我们要TPU。

  芯片优势正在加速兑现为商业增长。Kurian披露,Gemini企业版Token处理量已从今年1月的每分钟100亿跃升至160亿,企业用户数环比增长40%。他同时向行业发出警告:在算力产能持续受限的市场环境下,没有自研芯片的玩家单位经济成本将越来越贵;而依靠风险投资输血、无法以推理收入覆盖训练成本的商业模式,终将面临资金

  Kurian将这一优势定性为贯穿未来十年的长期壁垒,并以平台公司逻辑回应外界对谷歌同时服务Anthropic等竞争对手的质疑:为对手提供底层算力与在模型层正面竞争并不矛盾,且恰因TPU同时服务内外部需求,谷歌在供应链谈判中能获得更有利的合同条款,进一步加深了这条结构性护城河。

  十一年积累的复利效应:TPU从专用AI芯片走向通用算力

  Kurian将谷歌今日的算力优势,追溯至超过十一年前启动的TPU自研项目。他表示,谷歌早在多年前便预判AI浪潮的到来,并从能源多元化、土地储备、数据中心建造模式转型等多个维度提前布局,以确保不在物理资源层面受到制约。

  在数据中心建设层面,谷歌已将传统建筑施工模式转向工厂预制化模式,以更大的粒度进行预组装和预测试,从而大幅压缩产能部署周期。Kurian表示,这些决策的累积效应,在技术栈各层形成了复利——从TensorFlow到JAX,再到XLA和Pathways,谷歌围绕TPU构建的完整编程栈,是当前系统效率的核心

  值得关注的是,TPU的应用场景已开始向AI之外延伸。Kurian提到,对冲基金Citadel已公开谈及如何将TPU用于资本市场的算法交易,美国能源部及高性能计算领域的客户也在采用这一方案。其逻辑在于:算法交易过去依赖数值计算,受制于摩尔定律放缓,而转向推理计算可带来显著的性能跃升。部分顶级金融机构已要求将TPU部署在靠近交易所的客户自有数据中心,谷歌正在探索这一新型商业模式。

  第八代TPU拆分为推理与训练两条产品线,应对智能体时代需求

  Kurian透露,即将发布的第八代TPU包含三款产品:面向大规模训练的v8T,以及混合用途的Ironwood。其中v8i主要针对推理场景优化,可在无需水冷的条件下运行,便于部署至更多地点以管理推理延迟。

  在技术规格层面,Kurian介绍,v8T训练芯片在单个系统内可容纳两个Petabyte的内存,相当于美国国会图书馆全部数字化内容的约100倍。v8拥有9600块芯片互联,v8i则有1152块,全部运行在统一的光学Taurus网络上,具备极低的可预测延迟,内存到芯片的数据吞吐效率极高。

  谷歌以goodput作为核心衡量指标。Kurian表示,谷歌三四年前便预判能源供给将趋于紧张,因此将每瓦特算力的产出Token数作为优化重心,这一决策如今已成为众多客户选择TPU的重要原因。他明确表示,谷歌完全有信心凭借TPU为世界上最大规模的模型提供服务,且其分离式部署技术栈对TPU的使用效率在所有模型提供商中最高。

  对于业界关于预训练扩展放缓的讨论,Kurian给出了明确回应:从芯片设计、系统设计或产能层面,我们都没有看到这种放缓。

  智能体时代重塑算力架构:存储瓶颈成下一个关键约束

  在Kurian的框架中,AI应用正经历三个演进阶段:以问答为核心的第一阶段、以多模态内容生成为特征的第二阶段,以及以智能体自主完成复杂任务为核心的第三阶段。他指出,智能体的兴起正在从根本上改变芯片和系统设计的优化方向。

  智能体任务可能持续运行6至12小时,对KV缓存设计提出了全新要求,内存驻留成本的控制将直接决定推理服务的经济性。与此同时,推理场景需要在大量地点分散部署,这与训练可集中在少数超大规模地点完成的特性截然不同,v8i支持风冷运行正是对这一需求的直接回应。

  在存储层面,谷歌即将推出两项新方案:其一是面向大规模训练的托管Lustre解决方案,吞吐量达每秒10太字节;其二是面向推理场景的超低延迟Rapid Storage,吞吐量达每秒15太字节,可挂载于靠近推理芯片的位置。此外,谷歌还将推出新型网络架构Virgo,提供超大规模集群内的超低延迟高速互联。

  Kurian指出,智能体普及的下一个重大瓶颈将出现在消费者侧——让虚拟机按需激活、停用,并高效处理本地存储读写,将是降低智能体使用成本、实现大众化普及的核心工程挑战。

  平台逻辑下的商业模式:为竞争对手供给算力不影响自身竞争力

  针对外界对谷歌同时为Anthropic提供TPU算力、却又在模型层面直接竞争这一矛盾的质疑,Kurian将其归结为平台公司的内在逻辑。他表示,谷歌的不同业务部门与市场参与者同时存在竞合关系,苹果已与谷歌签订模型合同同样属于这一逻辑的体现。

  对于如何在内部算力需求与外部供给之间做出权衡,Kurian表示,分配决策由以Sundar Pichai为首的管理团队共同讨论做出,并强调拥有自己的芯片和需求,远比没有自己的芯片要好得多。谷歌不依赖外部芯片采购,因此无论如何分配,均能在自有知识产权基础上获得利润,这与纯粹转卖他人IP的商业模式有本质区别。

  在对比英伟达的总拥有成本主张时,Kurian以客户反馈作为回应——我们有很多客户说我们的总拥有成本是最低的,并重申大量外部AI实验室对TPU的需求已超出谷歌供给能力,视其为成本竞争力的最直接证明。

  网络安全成AI军备竞赛新战场,谷歌推三层应对体系

  Kurian对AI模型在网络安全领域的风险持高度警觉态度。他指出,无论如何限制闭源模型的扩散,开源模型必然会流入对手手中,且随时间推移持续进化。因此,核心问题在于:Anthropic认为Mythos过于危险而暂缓发布的那些漏洞检测能力,有多大比例可以被开源模型复现?

  谷歌的应对策略分为三层:第一,借助Gemini提升漏洞检测速度,并推出能够辅助修复代码的新模型,因为漏洞被发现的速度已远超人工修复的速度;第二,引入持续红队演练智能体——第一个智能体持续发动攻击测试,第二个对漏洞进行优先级排序,第三个辅助完成修复;第三,与Wiz整合后,将持续检测能力融入云端安全体系,形成从发现到修复再到部署的闭环。

  Kurian亦对AI将取代软件工程师的论断提出反驳。他表示,在模型能力提升带来大量安全漏洞的当下,恰恰是最需要大量软件工程师配合模型工作的时刻,行业容易在不再需要任何人的论断上矫枉过正,而现实往往相反。谷歌坚持代码同行评审制度,并正在探索引入监督模型以不同方式审查AI生成代码,以应对AI既生成代码又审查代码所带来的认知盲区风险。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。