发布时间:2026-05-14 已有: 位 网友关注
也是限制。
好消息是,120B级别模型如果能力足够强,再叠加极快输出速度,确实可能成为高价值产品。开发者已经证明过,愿意为了更快Token放弃部分前沿智能。
限制在于,OpenAI如果要在Cerebras上跑1T参数以上、1M上下文窗口、面向真实agentic workload的大模型,就要接受明显成本取舍,并且实际交互速度可能低于1000 tok/sec。能不能卖出足够高的Token溢价,是商业模型成立的关键。
材料给出的路径假设很激进:小模型能力继续提升,约一年内120B形态可能接近GPT-5.5级别智能。如果这成立,Cerebras就不需要承载最前沿、最大参数模型,也能卖出高价快Token。OpenAI锁定的750MW只是第一步,真正的上行空间来自是否行使额外1.25GW选项,甚至继续扩大采购。
但这个上行条件很窄:Cerebras必须证明,能在自己硬件适合的模型尺寸里,持续装下足够聪明、足够赚钱的模型。
IPO的核心问题:快Token溢价能不能长期覆盖硬件取舍
Cerebras不是另一个GPU故事。它不是在训练、大模型通用推理、长上下文吞吐上全面替代NVIDIA,而是在一个更窄但可能很赚钱的区间里押重注:高交互速度、低batch、用户愿意付溢价的推理。
晶圆级架构给了它极强的带宽和极快decode,也让它背上了SRAM容量、片外I/O、冷却、BOM、数据中心适配这些硬约束。OpenAI订单解决了需求问题,却没有消除交付风险和客户集中度。
用户愿意为速度付出的溢价,能不能覆盖Cerebras更复杂的系统成本;
750MW到2028年能否按节奏落地,且不被冷却、电力、供应链和数据中心能力拖住。
如果答案偏向“是”,Cerebras会成为快推理时代最有辨识度的AI硬件公司之一。如果答案偏向“否”,整片晶圆带来的速度优势,可能会被大模型和长上下文的内存需求一点点吃掉。