当前位置:主页 > 动态 > 正文

llama.cpp正式支持WebGPU,浏览器端推理显存骤降超30%

发布时间:2026-05-22 已有: 位 网友关注

  币界网消息,llama.cpp正式支持WebGPU,浏览器端推理显存骤降超30%。新后端摆脱了对特定原生客户端或复杂WebAssembly架构的依赖,实现纯端侧、数据不出设备的隐私推理,为网页生态打通了零配置的本地算力入口。5月20日发表的相关论文指出,WebGPU后端引入静态内存规划与高效模型加载机制,网页端运行时的显存开销相较现有框架降低29%至33%。在英特尔、苹果和英伟达等主流GPU设备上,解码吞吐量平均提升45%至69%。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。