当前位置:主页 > 聚焦 > 正文

罗福莉解密MiMo降本底牌:预填充注意力计算量降至10层全局GQA级别

发布时间:2026-05-27 已有: 位 网友关注

  币界网消息,罗福莉在X平台公布了自研大模型MiMo-v2.5系列实施API永久性降价后的算法降本机制。她透露,在API价格对齐DeepSeek后,小米的高负载推理引擎仍能保持盈亏平衡,成本降低主要来自混合注意力架构与层次化KV缓存优化。针对缓存命中成本降低99%的设计目标,小米推理框架实现了针对滑动窗口注意力SWA的层次化KV缓存优化,生产测试显示,层次化优化将缓存的token容量提升至5倍,降低了80%的缓存成本。罗福莉表示,低成本的推理服务有利于激发终端智能需求,大模型企业应当避免盲目的价格战,通过算法与推理系统的底层协同设计,将实际运行开销控制在盈亏平衡线以下。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。