罗福莉解密MiMo降本底牌：预填充注意力计算量降至10层全局GQA级别

发布时间：2026-05-27 已有：位网友关注

　　币界网消息，罗福莉在X平台公布了自研大模型MiMo-v2.5系列实施API永久性降价后的算法降本机制。她透露，在API价格对齐DeepSeek后，小米的高负载推理引擎仍能保持盈亏平衡，成本降低主要来自混合注意力架构与层次化KV缓存优化。针对缓存命中成本降低99%的设计目标，小米推理框架实现了针对滑动窗口注意力SWA的层次化KV缓存优化，生产测试显示，层次化优化将缓存的token容量提升至5倍，降低了80%的缓存成本。罗福莉表示，低成本的推理服务有利于激发终端智能需求，大模型企业应当避免盲目的价格战，通过算法与推理系统的底层协同设计，将实际运行开销控制在盈亏平衡线以下。