发布时间:2026-06-12 已有: 位 网友关注
币界网消息,MiniMax在Hugging Face正式开源其原生多模态混合专家模型MiniMax M3,参数总量4280亿,单token激活230亿,支持100万超长上下文。为降低显存开销,开发团队发布了MXFP8量化版本,并适配SGLang、VLLM、Transformers等推理框架。MiniMax M3在预训练阶段开展文本、图像与视频联合训练,实现原生语义融合。模型提供思考模式和非思考模式两种推理方式,支撑百万超长上下文的底层内核是轻量化注意力内核库MiniMax Sparse Attention。MSA采用分组查询注意力机制,在100万token的实测中,针对NVIDIA Blackwell架构优化的MSA算子实现了9倍以上的预填充加速和15倍的解码提速,同时降低了推理开销。