当前位置:主页 > 推荐 > 正文

当工程师拒绝更聪明的模型:AI推理大战,OpenAI换了一把枪

发布时间:2026-05-18 已有: 位 网友关注

  人工智能推理市场正在经历一场深刻的范式转变——速度,而非智能,正成为开发者愿意为之付费的核心变量。这一偏好的逆转,将长期处于边缘地位的芯片公司Cerebras推向了聚光灯下,也让OpenAI斥资数百亿美元押注一家即将上市的晶圆级芯片制造商。

  据行业研究机构SemiAnalysis的深度报告,OpenAI已与Cerebras签署总规模高达750兆瓦算力的主协议,潜在扩展至2吉瓦,对应剩余履约义务达246亿美元。

  这笔交易的核心逻辑在于:OpenAI旗下GPT-5.3-Codex-Spark模型在Cerebras硬件上可实现每用户每秒2000个token的生成速度,远超基于HBM的GPU集群所能提供的交互体验。与此同时,Cerebras正站在IPO的门槛上,其命运已与OpenAI深度绑定。

  这场速度革命的市场信号已相当清晰。SemiAnalysis披露,其团队80%的AI支出集中在Anthropic的Opus 4.6快速模式上——该模式以6倍溢价换取2.5倍交互速度。更具说服力的是,当Opus 4.7发布时,团队中多名工程师拒绝升级,原因仅仅是新版本不支持快速模式。这是SemiAnalysis团队首次主动放弃前沿智能,转而选择更快的token生成速度。

  速度溢价:开发者用钱包投票

  推理市场的竞争格局正在沿着一条新的轴线重新划分。

  正如英伟达CEO Jensen Huang在今年GTC大会上反复强调的,吞吐量与交互性是推理的根本性权衡——前者服务于批量处理,后者决定用户体验。SemiAnalysis将其比喻为公共汽车与法拉利的选择:你可以慢速服务大量用户,也可以快速服务单个用户。

  市场的偏好已通过消费行为得到验证。Opus 4.6快速模式以6倍价格换取约2.5倍的交互速度,一度成为Anthropic利润率最高的产品SKU,也是其今年ARR爆发式增长的重要驱动力。然而,SemiAnalysis与OpenRouter合作收集的数据显示,该模式近期已出现性能退化——标准Opus 4.6的交互速度稳定在约40 tps,快速模式曾超过100 tps,但近期已降至约70 tps,实际加速比从2.5倍缩水至约1.75倍。

  OpenAI和Anthropic均已意识到这一需求分层,并通过快速模式、优先模式、批量定价等多种产品形态,试图覆盖整个市场并寻找利润最大化的组合点。

  晶圆级芯片:一场豪赌的技术逻辑

  Cerebras的核心赌注,是突破光刻机单次曝光的物理极限,将整张晶圆做成一块芯片。

  其第三代产品WSE-3基于台积电N5工艺制造,在一张晶圆上集成了44GB SRAM,提供21PB/s的内存带宽——比HBM高出数千倍。这一架构的本质是:用极高的内存带宽换取极低的访存延迟,使得在小批量、低算术强度的解码场景下,WSE-3能够充分发挥其理论算力,而基于HBM的GPU在同等场景下往往处于算力饥渴状态。

  然而,这一架构也带来了显著的计算密度代价。SemiAnalysis指出,WSE-3的稠密FP16算力实际仅为15.625 PFLOPS——这与Cerebras官方宣传的125 PFLOPS相差8倍,差距源于其采用了8:1非结构化稀疏假设,SemiAnalysis将此称为Feldman公式,并将其与英伟达的Jensen数学相提并论,但认为前者走得更远。

  在系统成本方面,SemiAnalysis估算每台CS-3服务器的物料成本约为45万美元,远高于其硅片本身约2万美元的台积电晶圆成本。高昂的定制化电源模块、液冷系统以及每批次晶圆所需的定制掩膜版,共同推高了整体成本结构。

  架构短板:网络带宽的几何困境

  WSE-3最显著的弱点,是极为有限的片外带宽。

  每块WSE-3仅提供150GB/s的片外带宽,仅为英伟达Blackwell NVLink5单GPU 900GB/s规模扩展带宽的六分之一。这一限制并非设计疏忽,而是晶圆级架构的内在约束——SemiAnalysis将其称为岛屿问题。

  问题的根源在于晶圆的均匀步进曝光机制。WSE-3由84个相同的曝光单元拼接而成,每个曝光单元必须完全相同,以确保跨die的片上2D网格互联正常工作。这意味着无法将SerDes PHY集中部署在晶圆边缘——若要增加I/O带宽,就必须在每个曝光单元中都预留PHY面积,而位于晶圆内部的PHY无法连接外部,形成大量搁浅硅。此外,PHY模块还会在片上网格中形成空洞,增加数据路由延迟,削弱晶圆级架构的核心优势。

  这一带宽瓶颈直接限制了Cerebras服务大模型的能力。对于参数量超过1万亿、上下文窗口达到百万token级别的现代智能体工作负载,Cerebras不得不采用流水线并行策略,将模型按层切分到多块晶圆上,仅在晶圆间传输激活值。但随着模型规模扩大,所需晶圆数量线性增加,每次晶圆间传输的固定延迟也随之累积,最终侵蚀速度优势。

  SRAM扩展已[*]:路线图的隐忧

  Cerebras面临的另一个结构性挑战,是SRAM密度扩展的物理极限。

  从WSE-1到WSE-2,SRAM容量实现了2.2倍的代际提升。但WSE-3从7nm升级至5nm,SRAM容量仅从40GB增至44GB,增幅仅10%,而逻辑晶体管数量增长了约50%。SemiAnalysis的数据显示,在5nm之后,台积电N3E相对N5的SRAM单元面积几乎没有缩减,N2及后续节点亦然——SRAM扩展实际上已经停滞。

  这意味着Cerebras未来提升SRAM容量的唯一路径,是在固定晶圆面积内牺牲计算面积换取存储面积,形成严格的零和权衡。下一代CS-4系统将沿用基于N5的WSE-3,仅通过提升功耗来提高时钟频率和算力,SRAM容量维持不变。

  相比之下,英伟达收购Groq后,可通过混合键合技术在Z轴方向叠加SRAM芯片,绕开平面扩展的限制。Cerebras也在探索类似路径——将DRAM晶圆或光子互联晶圆通过混合键合叠加在WSE上,但SemiAnalysis对其技术可行性和时间表持审慎态度,认为晶圆级混合键合面临的热机械应力和键合波挑战远比常规芯片复杂。

  OpenAI交易:单一客户的双刃剑

  Cerebras与OpenAI的关系,已远超普通供应商与客户的范畴。

  根据SemiAnalysis援引的S-1文件,双方于2025年12月签署主关系协议,OpenAI承诺在2026至2028年间分批采购750兆瓦AI推理算力,每批次合同期3至4年,可延长至5年,并持有额外采购1.25吉瓦的选择权。截至2025年12月31日,Cerebras剩余履约义务达246亿美元。

  资本结构上,OpenAI同时扮演三重角色:向Cerebras提供10亿美元有担保营运资金贷款;持有3344.5万股N类普通股认股权证,行权价格接近于零;并在完全稀释基础上可能持有Cerebras约12%的股份。若MRA因OpenAI以外的原因终止,Cerebras须立即偿还全部贷款余额及应计利息,且OpenAI有权直接控制托管账户资金的使用。

  这一结构意味着Cerebras的增长前景与单一客户高度绑定。SemiAnalysis预计,Cerebras未来数年收入将出现明显拐点,OpenAI是主要增长驱动力,但执行风险同样集中——在2028年前,Cerebras需要交付的服务器数量将比其历史累计出货量高出一个数量级,而数据中心容量的落地进度是最大的不确定性。

  速度换智能:这笔交易值多少钱

  SemiAnalysis对此直言不讳:Cerebras的芯片在经济上目前只能高效服务相对较小的模型。对于参数量超过1万亿、上下文窗口达到100万token的现代智能体工作负载,OpenAI若要在Cerebras上运行,需要接受显著的成本溢价,且预计实际交互速度将低于每秒1000个token。

  然而,这一判断背后存在一个关键变量:算法进步的速度。SemiAnalysis认为,距离120B参数模型达到GPT-5.5级别的智能,可能不到一年时间。届时,以前沿智能换极速token的价值主张将发生质变——正如今天工程师们宁愿放弃Opus 4.7的更高智能,也要坚守Opus 4.6快速模式的交互体验。

  750兆瓦的初始承诺已经锁定。线B模型的智能追上今天的前沿水平,OpenAI是否会选择将选择权转化为实际采购,将协议规模扩展至2吉瓦乃至更多。这一答案,将决定Cerebras的IPO估值能否兑现,也将定义下一阶段推理战争的胜负手。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。