硬核拆解：GPT-5、Claude和Gemini是如何训练和推理的？

发布时间：2026-04-30 已有：位网友关注

　　一块黑板、几个方程式，芯片工程师Reiner Pope用这些工具，拆解了GPT-5、Claude和Gemini背后的训练与推理逻辑，并从公开的API定价中，反推出大模型不愿公开的架构细节。

　　近日，知名科技播客主持人Dwarkesh Patel与芯片创业公司MatX的CEO Reiner Pope进行了一场罕见以黑板推演为形式的深度对话。Pope此前在谷歌负责TPU架构与编译器优化，被认为是少数真正贯通AI全栈——从芯片设计到模型架构——的工程师之一。

　　Pope在黑板前用方程和图表，系统拆解了前沿大模型从训练到推理的底层逻辑。在Dwarkesh看来，这些细节“一旦理解，AI为何是今天这个样子——架构、定价、进步速度——就全都说得通了”。

　　核心结论包括：如果不批量处理用户请求，单次推理成本可能高出1000倍。而GPT-5的预训练数据量，是理论最优解的100倍。此外，DeepSeek V3拥有256个专家，每次推理只激活其中一小部分。MoE架构被限制在一个机架72块GPU以内，这是制约模型规模扩展的核心物理瓶颈之一。

　　一块GPU机架，决定了模型有多大

　　要理解顶级大模型为何是现在这个样子，得先从硬件说起。

　　现代大模型推理跑在GPU集群上。英伟达Blackwell NVL72是目前主流的部署形态——一个机架塞了72块GPU，通过NVLink高速互联，任意两块GPU之间只需两跳，通信带宽极高。

　　但一旦跨出这个机架，通信速度就慢了8倍。

　　这个8倍差距，直接决定了MoE的部署上限。

　　DeepSeek V3拥有256个专家，每次推理只激活其中一小部分。Pope解释，最自然的部署方式是专家并行——不同专家放在不同GPU上。任何GPU都可能向任何其他GPU发送token，这是一种全对全通信模式，和机架内NVLink的拓扑结构完美契合。

　　但一旦专家分布到两个机架，问题就来了：跨机架的token有一半要走慢8倍的网络，直接成为瓶颈。

　　一个机架的大小，限制了你能做多大的专家层。Pope说。

　　这就解释了一个市场上长期困惑的问题：为什么Gemini看起来比其他实验室更早取得大模型预训练的成功？Pope的推断是，谷歌的TPU系统长期拥有更大的scale-up域，能在更大范围内做全对全通信，这让它可以部署更高稀疏度的MoE模型，同时维持推理效率。

　　批处理：省1000倍成本的秘密

　　访谈还提及一个市场常见现象：Claude、Codex等产品提供“快速模式”，价格高出6倍，速度却只快2.5倍。为什么？能不能反过来，用“慢速模式”换取更低价格？

　　Pope的回答直接：核心变量是批处理规模。他用一个发车时刻表的比喻解释了背后的逻辑。

　　GPU每隔约20毫秒发出一班列车。每班列车能搭多少乘客，就是批处理大小。

　　核心结论是：推理的单位成本，在批处理量小的时候极高，随着批处理增大会急剧下降，最终趋于一个下限。

　　原因是权重加载成本的摊销。每次推理都要把模型权重从内存读入芯片。这个成本是固定的，不管服务1个用户还是2000个用户，权重只读一次。如果只服务1个用户，这个固定成本就全压在他身上；服务2000个用户，成本均摊后几乎可以忽略不计。

　　Pope估算，如果不做批处理，成本可以高出1000倍。

　　那最优批处理规模是多少？Pope给出了一个简洁的公式：约等于300乘以模型稀疏度。对DeepSeek这类激活1/8专家的模型，大约是2400个并发序列。这个数字与模型总参数量无关，只取决于硬件特性和稀疏度——这是一个反直觉的结论。

　　所以，慢速模式真的能便宜很多吗？从数学上看，不太行。KV缓存无法在不同用户之间共享摊销，因此让用户多等并不能显著降低成本。Pope说：节省不了太多，因为KV缓存是每个用户独立的，计算量也是独立的。

　　从API定价，反推模型架构

　　Pope展示了一个让人印象深刻的推理过程：通过公开的API定价，可以反推出模型的内部架构参数。

　　线万Token这个节点？Gemini 3.1的定价在超过20万 token后上涨50%。Pope解释，这对应着KV缓存的内存带宽成本超过权重矩阵计算成本的临界点——也就是模型从计算瓶颈切换到内存带宽瓶颈的转折点。

　　他进一步用这个数字反算：假设激活参数约1000亿，临界点在20万 token，可以推算出每个token的KV缓存大约占

　　。这与Character AI等公开论文中描述的注意力机制参数高度吻合。

　　Pope说，当然，他们有动力把价格定得接近成本，否则竞争对手可以抢走用户。

　　：一次性并行处理大量输入token，计算效率高，接近计算瓶颈

　　：每次只生成一个token，要读取全部模型权重和KV缓存，极度受内存带宽瓶颈制约

　　API通常对缓存命中的token大幅打折。Pope解释，这对应的是

　　：重新计算一次versus从HBM/DDR/闪存中直接读取。他进一步推算，按照Gemini5分钟缓存与1小时缓存的定价差异，可以推断这两个档位对应的存储介质分别是

　　和机械硬盘——后者让Pope也感到惊讶：我没想到机械硬盘会被用在这里。

　　这是整场讲座最具震撼性的推算。

　　Pope从一个经济学直觉出发：

　　他把这三块成本写出来，发现激活参数量这个变量直接消掉了——也就是说，最优训练量的推算与模型大小本身无关，只取决于推理流量。

　　假设某前沿模型推理流量约

　　。也就是说，当前顶级模型的预训练数据量，约是从纯训练效率角度出发所需数据量的100倍。

　　Patel说。Pope补充说，这个推算的核心逻辑是：

　　用Patel的线要被最优地训练，那么所有用户使用它产生的token总量，应该等于预训练消耗的token总量——而预训练数据，大约就是人类知识的总和。

　　Pope对此回应：大致如此。

　　流水线并行：听起来很美，但大多数时候用不上

　　关于流水线并行，Pope的结论是：它能节省内存容量，但解决不了KV缓存问题，因此在推理场景价值有限。

　　直觉上，流水线并行需要同时保持多个在途的batch，这让全局batch大小随流水线级数成比例增长。虽然每个机架上的权重存储减少了，但所有机架上的KV缓存总量并没有减少——因为需要更多并发序列来填满流水线。

　　你无法跨pipeline阶段摊销KV缓存，就像你无法跨batch摊销KV缓存一样。

　　这也解释了为什么Ilya Sutskever曾说现在我们都知道，流水线并行是不明智的——这句话在访谈中被Patel引用，而Pope的推演给出了工程层面的注解。

　　神经网络与密码学的“趋同进化”

　　访谈最后，Pope谈到了他写过的一篇博客观点：神经网络的架构与密码学协议之间存在趋同进化。

　　发现结构。Pope提到了一个具体的技术迁移案例：Feistel网络

　　这与KV缓存的逻辑恰好相反：KV缓存是用更多内存换取更少计算。Pope说，用内存换计算，在当前的硬件条件下通常是合算的。

　　主持人：Dwarkesh Patel 嘉宾：Reiner Pope

　　本期采用了全新的黑板讲座形式，由 Reiner Pope 系统讲解前沿大语言模型的训练与推理原理。内容涉及大量数据与数学推导，

　　令人惊讶的是，仅凭几个公式、公开的 API 价格和一支粉笔，就能推断出各大实验室正在做什么。

　　Reiner 是芯片创业公司 MatX 的 CEO。他此前在 Google 从事软件效率、编译器和 TPU 架构工作，是极少数能够贯通从芯片设计到模型架构整个技术栈的专家之一。

　　今天我的是 Reiner Pope，他是新芯片创业公司 MatX 的 CEO。此前他在 Google 主导了 TPU 架构等多项工作。本期采用黑板讲座的全新形式，我们专门为此打造了新的录制空间。今天要聊的话题涵盖模型架构、机器学习基础设施等诸多方面。

　　我认为这个话题非常重要。一旦你理解了训练和推理在集群中的运作方式，很多问题就会豁然开朗——为什么 AI 是现在这个样子，为什么 AI 架构是现在这个样子，为什么 API 价格是现在这个样子，以及为什么 AI 进步是现在这个节奏。要真正理解这些，你需要深入细节，而深入细节就需要一块黑板。Reiner，非常感谢你来参加。

　　首先，我想请你解释一个现象。现在有几家公司，比如 Claude、Codex 和 Cursor，都提供类似快速模式的选项——花费 6 倍的价格，可以获得 2.5 倍的 Token 输出速度。我有几个问题：

　　。接下来我们会精确量化这一点，分析它对延迟和成本的影响。另外还有一个效应，叫做推测解码或多 Token 预测，我们之后可以回头讨论，但首先要讲的是批量大小。

　　我们来分析如何在一个芯片集群上运行 Transformer 模型。以 Blackwell NVL72 集群为例，也就是一个 72 块 GPU 的机架。屋顶线分析关注的是内存带宽和计算性能这两个维度。

　　我们尝试估算运行某种形状的推理所需的时间。这不是精确预测，而是近似——我们会说时间大于等于某个量。我们考虑两个方面：内存读取所需时间，以及计算所需时间。这个简单模型能给我们非常强的预测能力。

　　tcompute=B×NactiveFLOPstcompute=FLOPsB×Nactive

　　需要取出所有权重，以及读取 KV 缓存：

　　以 DeepSeek V3 为例，它有约 370 亿活跃参数，总参数约 7000 亿。我们关注的是处理单个 Token 时用到的活跃参数。

　　关于 KV 缓存，简单解释一下：

　　在自回归推理的解码阶段，已有一批文本 Token，模型要生成下一个 Token。这一步需要对模型中所有层的权重矩阵做完整的前向传播，同时通过注意力机制，让当前 Token 关注所有历史 Token——它关注的是模型对历史 Token 生成的内部表示，这就是 KV 缓存。

　　批量大小 vs. 延迟图像分析：

　　我们先画批量大小与时间的关系图。

　　权重读取：是一个与批量大小无关的常数。

　　对于给定的硬件配置，延迟存在下界，即把所有参数从内存读取到芯片所需的最短时间。即便利用全部内存带宽，也无法比这更快。Dwarkesh：

　　以一个简单的代数例子说明：假设最优上下文长度是 10 万 Token，如果切换到 20 万 Token，MFU会降至约 50%。稍微偏离最优区间，对 MFU 的影响是显著的。

　　成本的含义是：运行这次推理需要占用 GPU 若干毫秒，按小时租用费换算成成本。而这次推理处理了多少 Token？就是批量大小 B。所以：

　　计算时间曲线：原本与 B 线性正比，除以 B 后变为常数

　　慢速模式有没有用？

　　我们关注的是权重读取时间等于权重计算时间的那个点：

　　每秒 Token 数估算：

　　关于稀疏度与模型质量的权衡：

　　论文研究了在保持活跃参数量不变的情况下，增加稀疏度对模型质量的影响。根据旧版 MoE 技术的实验结果，64 个专家、3.7 亿活跃参数的模型，质量与 13 亿参数的 Dense 模型相当。也就是说，总参数量扩大了 64 倍，才换来了相当于 4 倍活跃参数的效果——代价相当大。

　　第二章：MoE 模型在 GPU 机架上的布局方式

　　当我需要扩展到两个机架时，麻烦来了。机架间通信使用的是规模扩展网络，其带宽约为机架内 NVLink的1/8

　　因此，单个机架限定了 MoE 专家层的规模上界。这也正是行业一直在推动更大互联域的动力。

　　机架是一个物理结构，通常高约数米、宽约一到两米，容纳约 64 块 GPU，受限于供电、重量和散热能力。Nvidia 的 Blackwell 机架将 GPU 置于机架外侧，NVSwitch 置于内部，通过大量电缆连接。

　　为何不直接建一个超大交换机把所有 GPU 都互联？

　　GPT-4 据传拥有超过一万亿参数，但直到近半年才有更大规模的模型发布——这是否因为我们一直在等待足够大的内存来容纳一个五万亿参数模型？

　　Google 的 TPU 部署长期拥有较大的 scale-up 域，这也解释了为何 Gemini 似乎在预训练方面领先更早。活跃参数受计算成本限制，总参数受 scale-up 域规模限制——这两者共同界定了可行的模型设计空间。

　　第三章：流水线并行如何跨机架分布模型层

　　张量并行和数据并行，以及流水线并行。随着专家粒度越来越细，张量并行已不再那么重要，但流水线并行和数据并行非常适合跨多个机架使用。流水线并行：

　　设想我们有一个 MoE 层，上面还有一百多个这样的层。我可以在某一层切换到另一个机架，让不同机架负责不同的层。

　　节省内存容量。它不降低运行时间或计算量——只是把一部分内存压力从一个机架转移到另一个机架。如果单个机架的内存成为瓶颈，流水线可以大幅缓解这个问题，让模型参数分散在多个机架上存储。流水线气泡与微批次：

　　让我们画出推理时的流水线个机架：

　　流水线对推理延迟有影响吗？

　　流水线与 KV 缓存的内存分析：

　　关键结论：流水线阶段数 P 只能减少权重占用的内存，对 KV 缓存占用的内存没有帮助！

　　这类似于之前的结论：KV 缓存无法通过大批量来摊销，现在又发现它也无法通过流水线分担。

　　如果模型极大、极稀疏，超出单个机架的内存，则可以适当增加流水线级数。

　　有人会问：既然流水线能解决内存容量问题，更大的 scale-up 域有什么额外价值？

　　但同时，你刚才说 Blackwell 机架内存已经相当富裕。既然流水线能进一步降低内存需求，Jensen Huang 为什么还要把这么多内存堆进这些系统里？

　　KV 缓存成为内存占用的主导项

　　进一步的分析表明：增加流水线级数会相应增加同时在途的序列数，两个效应精确抵消，每 GPU 的 KV 缓存内存并不减少。所以，流水线对于 KV 缓存根本没有帮助

　　总结一下，scale-up 域大小影响 AI 进展的两个核心路径：

　　第五章：由于强化学习，模型可能比 Chinchilla 最优训练量多 100 倍

　　现在有了 Chinchilla 扩展律，它告诉你模型大小相对于训练数据量应当如何匹配。但现在的目标不只是用训练算力最大化模型质量，而是最小化训练和推理的综合成本，同时达到某个性能目标。此外，有了强化学习，还要考虑预训练、RL 生成和用户推理这三者之间的计算分配。

　　具体问题是：现在的模型比 Chinchilla 最优多训练了多少？RL 的引入是否改变了这个数字？

　　基本思路：当总成本是两项成本之和时，最小化总成本的最优点往往在两项成本相等处。

　　预训练成本、RL 成本和推理成本应当大致相等。成本公式：

　　第六章：从 API 定价推断长上下文的内存成本

　　令内存时间等于计算时间的断点在 200K Token 处：

　　密集注意力 + 跨层共享：

　　通常输出的价格比输入贵约 5 倍。为什么？

　　从output 比 input 贵 5 倍这一定价，可以读出：decode 时内存带宽利用率约是计算利用率的 5 倍——即系统极度受内存带宽瓶颈制约。

　　提示词缓存的定价分析：

　　基础输入 Token：$5/百万 Token

　　第七章：神经网络与密码学的趋同演化

　　你有一篇非常有趣的博文，讨论了密码协议的结构与神经网络的相似性——两者都需要将信息混合到所有输入中，这是一种趋同演化。但从高层次看，它们其实在做相反的事情：密码协议把有结构的信息变得像随机数，神经网络则从看似随机的数据中提取高层结构。

上一篇：币界午讯比特币ETF总净流出137.75亿美元，黑石IBIT流出5470万美元

下一篇：Altman：OpenAI要做「永远低利润」公司，对标Stripe

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

硬核拆解：GPT-5、Claude和Gemini是如何训练和推理的？

推荐

热门