llama.cpp正式支持WebGPU，浏览器端推理显存骤降超30%

发布时间：2026-05-22 已有：位网友关注

　　币界网消息，llama.cpp正式支持WebGPU，浏览器端推理显存骤降超30%。新后端摆脱了对特定原生客户端或复杂WebAssembly架构的依赖，实现纯端侧、数据不出设备的隐私推理，为网页生态打通了零配置的本地算力入口。5月20日发表的相关论文指出，WebGPU后端引入静态内存规划与高效模型加载机制，网页端运行时的显存开销相较现有框架降低29%至33%。在英特尔、苹果和英伟达等主流GPU设备上，解码吞吐量平均提升45%至69%。