发布时间:2026-04-24 已有: 位 网友关注
币界网消息,分析师Yifan Zhang披露的V4架构规格与DeepSeek开源的TileKernels内核库存在多处对应。Zhang称V4残差连接使用了流形约束超连接,这是对字节Seed团队2024年提出的HC加双随机矩阵约束的改进版。通过TileKernels内核代码推测V4架构,三项核心命中、一项落空。模型卡确认V4使用MHC,命中。模型卡还确认V4是MOE模型,命中。权重使用FP4+FP8混合存储,命中。唯一未中的是条件记忆模块,模型卡同样未提及。模型卡揭示了TileKernels未涉及的新组件:混合注意力机制是V4长上下文效率飞跃的核心,1M上下文下推理FLOPS仅为V3.2的27%,KV缓存仅10%训练改用Muon优化器。