谷歌云CEO：自研TPU构筑竞争护城河，第八代芯片即将发布，外部需求已超供给上限

发布时间：2026-04-25 已有：位网友关注

　　在全球AI实验室深陷“算力荒”的当下，谷歌正凭借超过十年的自研芯片积累，构筑起一道竞争对手难以的结构性护城河。

　　谷歌云CEO Thomas Kurian近日在接受专访时表示，即将公布的第八代TPU将拆分为专注大规模训练的v8T与推理优化的v8i两条独立产品线，单个训练系统可容纳两个Petabyte的内存。外部AI实验室对TPU的需求已远超我们所能满足的上限，并以此作为成本竞争力的最直接佐证：如果我们的成本贵得多，他们根本不会来找我们要TPU。

　　芯片优势正在加速兑现为商业增长。Kurian披露，Gemini企业版Token处理量已从今年1月的每分钟100亿跃升至160亿，企业用户数环比增长40%。他同时向行业发出警告：在算力产能持续受限的市场环境下，没有自研芯片的玩家单位经济成本将越来越贵；而依靠风险投资输血、无法以推理收入覆盖训练成本的商业模式，终将面临资金

　　Kurian将这一优势定性为贯穿未来十年的长期壁垒，并以平台公司逻辑回应外界对谷歌同时服务Anthropic等竞争对手的质疑：为对手提供底层算力与在模型层正面竞争并不矛盾，且恰因TPU同时服务内外部需求，谷歌在供应链谈判中能获得更有利的合同条款，进一步加深了这条结构性护城河。

　　十一年积累的复利效应：TPU从专用AI芯片走向通用算力

　　Kurian将谷歌今日的算力优势，追溯至超过十一年前启动的TPU自研项目。他表示，谷歌早在多年前便预判AI浪潮的到来，并从能源多元化、土地储备、数据中心建造模式转型等多个维度提前布局，以确保不在物理资源层面受到制约。

　　在数据中心建设层面，谷歌已将传统建筑施工模式转向工厂预制化模式，以更大的粒度进行预组装和预测试，从而大幅压缩产能部署周期。Kurian表示，这些决策的累积效应，在技术栈各层形成了复利——从TensorFlow到JAX，再到XLA和Pathways，谷歌围绕TPU构建的完整编程栈，是当前系统效率的核心

　　值得关注的是，TPU的应用场景已开始向AI之外延伸。Kurian提到，对冲基金Citadel已公开谈及如何将TPU用于资本市场的算法交易，美国能源部及高性能计算领域的客户也在采用这一方案。其逻辑在于：算法交易过去依赖数值计算，受制于摩尔定律放缓，而转向推理计算可带来显著的性能跃升。部分顶级金融机构已要求将TPU部署在靠近交易所的客户自有数据中心，谷歌正在探索这一新型商业模式。

　　第八代TPU拆分为推理与训练两条产品线，应对智能体时代需求

　　Kurian透露，即将发布的第八代TPU包含三款产品：面向大规模训练的v8T，以及混合用途的Ironwood。其中v8i主要针对推理场景优化，可在无需水冷的条件下运行，便于部署至更多地点以管理推理延迟。

　　在技术规格层面，Kurian介绍，v8T训练芯片在单个系统内可容纳两个Petabyte的内存，相当于美国国会图书馆全部数字化内容的约100倍。v8拥有9600块芯片互联，v8i则有1152块，全部运行在统一的光学Taurus网络上，具备极低的可预测延迟，内存到芯片的数据吞吐效率极高。

　　谷歌以goodput作为核心衡量指标。Kurian表示，谷歌三四年前便预判能源供给将趋于紧张，因此将每瓦特算力的产出Token数作为优化重心，这一决策如今已成为众多客户选择TPU的重要原因。他明确表示，谷歌完全有信心凭借TPU为世界上最大规模的模型提供服务，且其分离式部署技术栈对TPU的使用效率在所有模型提供商中最高。

　　对于业界关于预训练扩展放缓的讨论，Kurian给出了明确回应：从芯片设计、系统设计或产能层面，我们都没有看到这种放缓。

　　智能体时代重塑算力架构：存储瓶颈成下一个关键约束

　　在Kurian的框架中，AI应用正经历三个演进阶段：以问答为核心的第一阶段、以多模态内容生成为特征的第二阶段，以及以智能体自主完成复杂任务为核心的第三阶段。他指出，智能体的兴起正在从根本上改变芯片和系统设计的优化方向。

　　智能体任务可能持续运行6至12小时，对KV缓存设计提出了全新要求，内存驻留成本的控制将直接决定推理服务的经济性。与此同时，推理场景需要在大量地点分散部署，这与训练可集中在少数超大规模地点完成的特性截然不同，v8i支持风冷运行正是对这一需求的直接回应。

　　在存储层面，谷歌即将推出两项新方案：其一是面向大规模训练的托管Lustre解决方案，吞吐量达每秒10太字节；其二是面向推理场景的超低延迟Rapid Storage，吞吐量达每秒15太字节，可挂载于靠近推理芯片的位置。此外，谷歌还将推出新型网络架构Virgo，提供超大规模集群内的超低延迟高速互联。

　　Kurian指出，智能体普及的下一个重大瓶颈将出现在消费者侧——让虚拟机按需激活、停用，并高效处理本地存储读写，将是降低智能体使用成本、实现大众化普及的核心工程挑战。

　　平台逻辑下的商业模式：为竞争对手供给算力不影响自身竞争力

　　针对外界对谷歌同时为Anthropic提供TPU算力、却又在模型层面直接竞争这一矛盾的质疑，Kurian将其归结为平台公司的内在逻辑。他表示，谷歌的不同业务部门与市场参与者同时存在竞合关系，苹果已与谷歌签订模型合同同样属于这一逻辑的体现。

　　对于如何在内部算力需求与外部供给之间做出权衡，Kurian表示，分配决策由以Sundar Pichai为首的管理团队共同讨论做出，并强调拥有自己的芯片和需求，远比没有自己的芯片要好得多。谷歌不依赖外部芯片采购，因此无论如何分配，均能在自有知识产权基础上获得利润，这与纯粹转卖他人IP的商业模式有本质区别。

　　在对比英伟达的总拥有成本主张时，Kurian以客户反馈作为回应——我们有很多客户说我们的总拥有成本是最低的，并重申大量外部AI实验室对TPU的需求已超出谷歌供给能力，视其为成本竞争力的最直接证明。

　　网络安全成AI军备竞赛新战场，谷歌推三层应对体系

　　Kurian对AI模型在网络安全领域的风险持高度警觉态度。他指出，无论如何限制闭源模型的扩散，开源模型必然会流入对手手中，且随时间推移持续进化。因此，核心问题在于：Anthropic认为Mythos过于危险而暂缓发布的那些漏洞检测能力，有多大比例可以被开源模型复现？

　　谷歌的应对策略分为三层：第一，借助Gemini提升漏洞检测速度，并推出能够辅助修复代码的新模型，因为漏洞被发现的速度已远超人工修复的速度；第二，引入持续红队演练智能体——第一个智能体持续发动攻击测试，第二个对漏洞进行优先级排序，第三个辅助完成修复；第三，与Wiz整合后，将持续检测能力融入云端安全体系，形成从发现到修复再到部署的闭环。

　　Kurian亦对AI将取代软件工程师的论断提出反驳。他表示，在模型能力提升带来大量安全漏洞的当下，恰恰是最需要大量软件工程师配合模型工作的时刻，行业容易在不再需要任何人的论断上矫枉过正，而现实往往相反。谷歌坚持代码同行评审制度，并正在探索引入监督模型以不同方式审查AI生成代码，以应对AI既生成代码又审查代码所带来的认知盲区风险。

上一篇：登陆北交所前，科莱瑞迪实控人套现超3000万

下一篇：新加坡警方反诈骗行动成功拦截286万新元加密诈骗资金

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

谷歌云CEO：自研TPU构筑竞争护城河，第八代芯片即将发布，外部需求已超供给上限

推荐

热门