Semianalysis：智能体火爆，CPU成为新的“AI瓶颈”

发布时间：2026-04-09 已有：位网友关注

　　随着AI智能体和强化学习的爆发式增长，原本在AI浪潮初期被边缘化的通用处理器，正遭遇前所未有的算力挤兑，成为继GPU之后新的基础设施瓶颈。

　　近期，随着各大科技巨头财报陆续落地，市场对AI基础设施的关注点正在发生微妙转移。投资者不仅紧盯GPU的订单与交付，更开始寻找AI应用落地带来的新增长极。

　　4月8日，知名半导体分析机构SemiAnalysis首席分析师Dylan Patel在一次深度访谈中指出，由于AI工作负载的范式正在从简单的文本生成向复杂的“智能体”和“强化学习”演进，CPU正面临极其严重的产能短缺。

　　在AI发展的头几年，核心算力需求几乎全被GPU占据。正如Dylan Patel所言：“在AI的头几年，CPU确实严重滞后……负载很轻。你发一个字符串，它回一个字符串，简单的推理，对CPU需求不大。”

　　然而，这一局面在过去几个月里发生了颠覆性的变化，核心驱动力正是以OpenAI o1为代表的具备逻辑推理和智能体属性的新一代模型。

　　智能体与强化学习推升CPU需求

　　模型不再仅仅是“生成文本”，而是开始自主执行任务、调用数据库并自我验证，这让CPU的工作量呈指数级上升。

　　Dylan Patel给出了一个极具冲击力的数据：

　　“就在最近六个月吧，代码智能体的收入在很短的时间内从几十亿美金涨到了超过100亿美金。这些智能体的任务时长也大幅增加：比如Claude Code可以连续工作六七个甚至七八个小时……它可以自己去ping、去抓取、以智能体方式自主工作。这也需要大量的CPU。”

　　与此同时，强化学习的训练循环变得越来越紧密。未来的AI不仅要做数学题，还要在物理模拟器中导航，这要求生成器生成的每一步都需要在CPU集群上进行高频验证。

　　“这个循环在过去几年变得越来越紧……在过去六个月里，我们看到整个云市场的CPU都跑光了。”云厂商疯狂扩容，微软“卖空”CPU已致GitHub不稳

　　市场需求的骤增直接导致了云端算力的枯竭。为了满足头部AI实验室的需求，大型云厂商甚至牺牲了其他业务的稳定性。Dylan Patel直言：

　　“我不知道你们最近有没有经常和GitHub打交道，它真的很不稳定……那是因为微软把他们所有闲置的CPU都卖给了别人。”

　　这种短缺正在逼迫企业进行极端的工程迁移。据透露，OpenAI此前几乎只在x86 CPU上运行，但为了获得算力，他们直接向亚马逊要存量处理器。

　　“亚马逊有大量的ARM CPU，于是他们把整个栈都移植了过去——只要能拿到CPU，到哪里我都愿意移植我的代码库。”

　　“CPU的利润率没那么高，但正在攀升，因为Intel和AMD在涨价而且供应紧张。”

　　从数据来看，扩容正在全行业上演。“亚马逊安装的CPU服务器数量，今年比去年同比增长了3倍。到处都没有容量了。”

　　此外，为了不让昂贵的GPU闲置等待，客户必须保持CPU“热池”持续运行，这种商业逻辑进一步放大了对CPU的需求。

　　硬件淘金热蔓延：存储暴涨，3nm产能全线告急

　　算力的短缺已经沿着产业链迅速向上传导，不仅英特尔和AMD发出了涨价通知，甚至连面向C端的PC市场也受到波及。

　　Dylan Patel用一句极其生动的话形容当下的硬件市场：

　　“通常，出现淘金热的时候，连拿着坏镐头的人也能卖掉他的镐头。”

　　他补充了市场高度关注的存储和芯片制造环节的涨价数据：

　　“内存价格在过去一年涨了4倍，而且还会继续涨。现在SSD价格也涨了3-4倍，而且至少还会再涨60%。”

　　更令市场担忧的是晶圆代工产能的挤压。AI芯片正在吸干台积电的最先进制程产能：

　　“AI正在买走所有3纳米和2纳米的产能……现在所有AI芯片都在往3纳米迁移：AMD的MI350系列、亚马逊和谷歌的Trainium 3和TPU v7、英伟达的Rubin——所有这些都在3纳米上。”

　　这甚至迫使苹果、高通等移动端巨头向下迁移，或者让英伟达将部分订单转移至三星。

　　以下是访谈的文字记录：

　　主持人：大家好。很高兴请到Dylan。我第一次看他是一次，他谈到：虽然我们有CPU，但我们要讨论Neo clouds以及它们为什么有存在的权利。那对我来说非常有意思，因为今天的主题正是：当智能体已经到来时，新的基础设施基元是什么？你当时把Neo clouds与超大规模云服务商的不同之处，以及它们为什么应该存在，阐述得非常清楚。能跟我们分享一下吗？Dylan Patel：当然。在AI时代，超大规模云服务商的动作有点慢，对吧？谷歌、亚马逊、微软，进入AI领域都有点慢。于是一批全新的公司冒了出来，而且出现了一个新的低门槛——亚马逊、微软、谷歌构建的那些复杂软件，很多其实并不需要。事实上，那些复杂软件反而拖慢了AI的发展：它们有自定义网络，但那些网络对AI并不太友好，更关注可靠性和存储流量，而不是像在网络上做all-reduce之类的事情。所以这些大型云厂商、超大规模云服务商有很多东西，Neo clouds可以直接跳过，然后构建专注、优化的解决方案，并提供更低的成本，因为它们的开销要低得多——这些Neo clouds里没有两万个谷歌的项目经理坐在会议室里。它们在能源上行动迅速，在搭建GPU集群上行动迅速，所以它们能够开辟出一块市场。那是早期的那些。自那以后，出现了很多模仿者或追随者——很多没有成功，很多正在成功。这实际上就是一场比谁最有能力的战斗。主持人：那么，是不是所有——我想大概有200家左右这样的Neo clouds，对吗？——你看到它们之间有差异化吗？是不是有些只是在最早那批的软件栈？有些在做别的事情？你有没有看到这些Neo clouds中哪些做法成功、哪些不太成功？Dylan Patel：是的，有很多因素能区分它们。我们有一个叫Cluster Max的东西，给所有Neo clouds排名。我们会测试各种东西：可观测性、可靠性、网络、安全、管理、编排等等，这些都不一样。比如，有人会测试他们的GPU在用户空闲时是否工作正常——那是主动健康检查还是被动健康检查？风扇转速是否合适？功耗是否正确？节点是否有问题？网络是否有问题？性能是否达标？有各种各样的检查和测试，因为GPU是不可靠的。还有GPU之上的软件类型：很多人一开始只做裸金属，比如微软与CoreWeave的最初合同全是裸金属——你只需SSH进去，微软自己搭建环境。但随着发展，人们想要更多：有人想要安装Slurm，那很简单；有人想要安装Kubernetes，稍微难一点，但仍然很简单；有人想要在Kubernetes上安装Slurm，因为这样更容易推送作业等等。现在开始有人做托管Ray服务之类的东西，用于强化学习。所以有一类Neo clouds在构建这些东西，而另一类Neo clouds则说我不在乎，我只建GPU，然后以裸金属方式出租。成本上也有差异：拥有好软件的Neo clouds往往收费更高，某种程度上又回到了传统模式——谷歌、微软、亚马逊有好软件，收费也高得多。而且你会看到很多这类云公司开始尝试推出推理服务和其他东西。主持人：类似地，顺着这个思路，我就想说到CPU了。历史上，我们有客户要求像OpenClaw那样的东西——有些人说我需要我的沙箱或CPU盒子长时间运行，你能给我一个5美元像Hetzner那样的产品吗？我说不行，因为那是裸金属机器，成本很低。但当你提供更大的软件产品时，成本就会更高，所以很难与之竞争。所以我猜在Neo clouds里也一样，正如你提到的，裸金属的销售成本比那些往软件方向走的要低。我只是好奇它们为什么有存在的权利——这有点像我们做的事情的类比。但真正的问题是，你提到了这一点，我们正在思考的方向是：CPU成了新的瓶颈。以前每个投资人、每个我聊过的人都只谈GPU。现在你出了一份大报告讲CPU，我心里想好的，没错，谢谢你。所以你报告里说今年会是瓶颈。那么请从TDR层面高屋建瓴地告诉我们：为什么CPU现在是瓶颈？你看到了什么？Dylan Patel：是的，在AI的头几年，CPU确实严重滞后。它被用于一些存储、一些检查点、一些数据预处理和预训练，但负载很轻。推理方面，模型还不够好，无法成为智能体——你不能让它一步步地行动。所以当时没有能力让模型去执行动作并把它们串起来，基本上是你发一个字符串，它回一个字符串，简单的推理，对CPU需求不大。但过去几年——其实不光是过去几年，比如Q*开始，OpenAI有那些风波，然后最终o1预览版发布——说实线是第一个这类模型。然后涌现了一大批模型。以前人们会做简单的事，比如用正则表达式检查模型输出，看看是否正确，或者做结构化输出用于函数调用等等。但随着时间的推移，对模型的检查变得规模大得多，并且已经完全集成到训练中——通过强化学习。不再只是用正则表达式，而是用各种分类器；不再只是分类器，而是做代码单元测试和编译；再进一步，你运行智能体流程，它实际上去调用数据库之类的，或者与一个对CPU负载很重的环境交互。模型输出内容，然后检查它——这个环境——然后再回去基于它进行训练。这个循环在过去几年变得越来越紧。而最近——就说最近六个月吧——代码智能体的收入在很短的时间内从几十亿美金涨到了超过100亿美金。这些智能体的任务时长也大幅增加：比如Claude Code可以连续工作六七个甚至七八个小时。在这个过程中，它会调用数据库，调用各种东西，反正什么都做——它可以自己去ping、去抓取、以智能体方式自主工作。这也需要大量的CPU。所以过去六个月这方面也急剧膨胀。再加上强化学习训练循环变得越来越紧。因此在过去六个月里，我们看到整个云市场的CPU都跑光了——我不知道你们最近有没有经常和GitHub打交道，它真的很不稳定。主持人：我想你是今天第三个提到这事的人了。Dylan Patel：好的。我们一直在检查GitHub的统计数据：宕机多频繁？提交失败多频繁？情况很糟。那是因为微软把他们所有闲置的CPU都卖给了别人——要么是内部实验室自己用，但更多的是外部实验室。他们和Anthropic、OpenAI签了合同，所以自己几乎没有CPU剩下了。我们在很多其他公司也看到了同样的情况。以前，每个CPU服务器对应很多GPU服务器，比如100兆瓦的GPU可能只由1兆瓦甚至更少的CPU来服务。但现在这个比例正在变得非常接近，无论是对于RL训练还是推理。然后你就看到所有地方的CPU都跑光了。亚马逊安装的CPU服务器数量，今年比去年同比增长了3倍。到处都没有容量了。这不仅导致GitHub很不稳定，可能其他地方也是。主持人：我的意思是，今天我们谈论了很多基础设施相关的事情。每天都能看到某个基础设施提供商——不管是GitHub还是别的什么——出现宕机，这已经变得很常见了。这可能是CPU短缺的原因，也可能是工作负载规模等原因。Dylan Patel：也可能是所有人的基础设施代码都是vibe coded的。主持人：对，也可能是所有人的基础设施代码都是vibe coded。我不认为全是，但可能有一部分是。我看到很有意思的是，运行在我们这里的CPU工作负载数量——Daytona基本上有三个用例：代码和命令执行；还有计算机使用用例，这个我们实际上看到增长非常快。我们今天刚宣布了Windows沙箱，它也跑在CPU上。如果你需要一个智能体去处理遗留软件。另外正如你所说，强化学习方面，我们有很多通常用Kubernetes的人，现在开始用我们。但有趣的是，这些负载的规模和体量极其巨大，而且还在极其快速地增长。而我们是世界上最小的云。所以我好奇的是：如果我们这么小的公司都有这么大的量，那么在大规模下会是什么样子？而且我们遇到过——我想知道你有没有这方面的洞察——光是RL，更不用说长时间运行的智能体了。那么有多少客户在做RL？他们都会需要这个。我不知道你有没有什么见解，但我很好奇。Dylan Patel：我的意思是，有些指标相当惊人——100万vCPU听起来很疯狂。但有些人签的合同和工作负载的规模甚至比这还要离谱。主持人：我相信那是因为我们确实很小。Dylan Patel：对，是这原因。所以我想，当你再看像Anthropic、OpenAI这样的公司时，他们已经完全吃掉了多个云的全部容量。最近亚马逊和OpenAI交易的一大推动力——是的，OpenAI想要钱，他们需要算力，但他们也直接去找亚马逊说把你的CPU给我们。之前OpenAI的栈几乎只在x86 CPU上运行，但亚马逊有大量的ARM CPU，于是他们把整个栈都移植了过去——只要能拿到CPU，到哪里我都愿意移植我的代码库。这就能看出人们愿意投入的工程水平了，因为通常开发者都懒得动，直接去别的地方找容量，但现在别的地方也没有容量了。主持人：是的，有意思。我们全是x86，只有这些。我们目前还没有ARM。但除了这两家，还有Nvidia有自己的CPU，还有其他人也在造自己的CPU。这些CPU之间也有差异。它们都只是通用CPU吗？你可能比我懂得多，我超级好奇。Dylan Patel：关于CPU的类型。主持人：现在种类太多了。以前基本上只有x86和ARM。现在有了不同类型的CPU。是因为大家都跑光了，还是它们在某些方面确实更好？有什么特别的吗？Dylan Patel：通常，出现淘金热的时候，连拿着坏镐头的人也能卖掉他的镐头。CPU市场现在非常动态。目前主要是Intel和AMD——我猜你们主要用Intel和AMD的CPU。这两家都说自己完全卖光了，已经向客户发了涨价通知。它们甚至不再互相竞争了，只是想着我能造多少卖多少。同样，亚马逊有Graviton CPU，已经发展到第五、第六代了。Nvidia有Grace和Vera CPU。但之前没人真正部署过Grace独立CPU机箱——Nvidia为了PR做了一些小规模部署，但实际上独立CPU部署非常少。为什么呢？只是因为它们不够好。但现在向前看，也许它们的CPU变好了，也许捆绑销售得更好，但更重要的是因为它们有容量，所以它们能在自己的各种CPU上拿到更多合同，大概今年晚些时候或明年初开始部署。所以这是一个非常动态的市场。然后微软和谷歌也开始部署自己的CPU，而且开始上量。Arm几周后要发布一款CPU，Meta会采用，Cloudflare等几家公司也会采用。所以会有更多的ARM独立方案，而不只是Arm授权IP给别家。市场上会出现更多的多样化——这正是在淘金热时会发生的。然后我们会看到，当供需缺口逐渐弥合时，到底谁的品质最好、谁能留下来。主持人：但看起来需求的规模还是会增长。至少我看到的：第一，RL——似乎RL大部分是在做后训练，但现在已经有供应商和公司在推销并创建实时RL的服务。因为你有了一些智能体，你有了一些在后台是智能体的SaaS，然后它会在一天结束时做RL，基本上是为了从自己的行为中学习。所以那在增长。另外，这些长时间运行的智能体——如果它们能工作更长时间、解决更多问题，你基本上可以让它们做更多事情，它们会启动越来越多的这类智能体，这意味着越来越多的CPU盒子。那么从你的视角看，你理解市场动态，最终可能会收敛，但我感觉在需求缩小之前，它还会变得更宽。Dylan Patel：是的，完全是这样。因为最初所有的RL都是来做数学证明，数学证明对资源需求很低。而且模型会生成大量输出，然后把正确答案发给服务器，服务器去验证。但随着时间的推移，不再是那样了：模型会多次提交，或者在它的智能体过程中多次尝试编译，或者多次尝试做单元测试。这增加了生成器发送给验证器的频率，这个循环越来越紧。随着我们进入更复杂的RL，模型实际上会不断地验证自己的输出。比如说，想象一下未来一两年训练的模型——比如一个机器人模型，在一个世界模型中验证：

上一篇：五大行AIC净利七年增15倍；废旧手机被热炒后价格回落

下一篇：美国2月核心PCE物价指数同比上涨3%，低于前值3.1%，消费者支出环比几无增长

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

Semianalysis：智能体火爆，CPU成为新的“AI瓶颈”

推荐

热门