DeepSeek V4亮相即轰动：强在哪？

发布时间：2026-04-24 已有：位网友关注

　　DeepSeek-V4分为Pro与Flash两个版本，均支持百万token超长上下文，两个版本均大幅降低了对计算和显存的需求。

　　公告里有一句线M上下文将是DeepSeek所有官方服务的标配。

　　OpenAI和Google早就支持超长上下文了。问题是成本。Transformer注意力机制的计算量随序列长度平方增长——序列翻倍，算力变四倍

　　——处理100万token在传统架构下几乎无法商业化。技术报告给出了这次架构改动的幅度：

　　标准Transformer的自注意力，要让每个token跟序列里所有其他token算相关性权重。这是平方复杂度，结构性的，不是工程调优能解决的。

　　：要么切掉计算范围，要么绕开长文本本身。还有固定稀疏注意力，人工设计稀疏模式来跳过部分计算，但模式是[*]的，不同任务的信息分布差异大，泛化能力有限。V4的方案是CSA + HCA混合注意力架构。

　　CSA解决的是算什么。用轻量级索引器先对所有token对做粗筛，快速估算相关性排序，再精选出需要完整计算的token集合。关键在于这套稀疏结构是可训练的——模型在训练过程中自己学出哪里需要高密度注意力，哪里可以稀疏。V3.2时代的DSA是雏形，V4在此基础上做了进一步演化。

　　27%的FLOPs，10%的KV缓存。换算过来，同等算力下能服务的长上下文并发量大约是原来的3到4倍。技术报告里还有两个细节值得记一下。

　　Muon优化器替代了Adam系列，基于矩阵正交化更新，在超大规模训练里收敛更快，更稳定——Adam在大模型训练里几乎是默认配置，DeepSeek这次换掉了它。

　　长上下文测评有两个数字要对比着看：MRCR 1M83.5，Gemini是76.3，Opus 4.6是92.9。CorpusQA 1M62.0，Opus 4.6是71.7。MRCR侧重检测关键信息是否存在，CorpusQA要在百万token里精准定位并综合分析——两个测评的分化放在一起，说明的东西自然清楚。

　　把这次发布叫预览版，技术报告标题里写的是Towards——朝向，还在路上。CSA和HCA的设计逻辑今天已经公开，稀疏训练机制在不同任务分布下怎么表现，是接下来开源社区会告诉我们的事。数据

上一篇：0xd8d5...7349：英伟达夜盘涨幅扩大至23%，链上最大多头月盈92万美元

下一篇：以军空袭黎巴嫩南部军事设施

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

DeepSeek V4亮相即轰动：强在哪？

推荐

热门