发布时间:2026-05-27 已有: 位 网友关注
币界网消息,罗福莉在X平台公布了自研大模型MiMo-v2.5系列实施API永久性降价后的算法降本机制。她透露,在API价格对齐DeepSeek后,小米的高负载推理引擎仍能保持盈亏平衡,成本降低主要来自混合注意力架构与层次化KV缓存优化。针对缓存命中成本降低99%的设计目标,小米推理框架实现了针对滑动窗口注意力SWA的层次化KV缓存优化,生产测试显示,层次化优化将缓存的token容量提升至5倍,降低了80%的缓存成本。罗福莉表示,低成本的推理服务有利于激发终端智能需求,大模型企业应当避免盲目的价格战,通过算法与推理系统的底层协同设计,将实际运行开销控制在盈亏平衡线以下。