发布时间:2026-06-28 已有: 位 网友关注
币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。