小米开源视频配音模型ControlFoley，声音想怎么配由你决定

发布时间：2026-05-29 已有：位网友关注

　　币界网消息，小米大模型应用团队发布并开源视频音效生成框架ControlFoley。该模型的重点是「可控性」，能够根据画面配音，也能接受文字描述或参考音频，让声音按创作者意图生成。ControlFoley采用基于cav-mae改造的时空音视频编码器，并引入「时间-音色解耦」策略，确保声音与画面同步。该模型在多个常规视频配音测试中达到开源SOTA水平，项目的技术报告、代码、模型权重和demo均已开放。