当前位置:主页 > 头条 > 正文

小米开源视频配音模型ControlFoley,声音想怎么配由你决定

发布时间:2026-05-29 已有: 位 网友关注

  币界网消息,小米大模型应用团队发布并开源视频音效生成框架ControlFoley。该模型的重点是「可控性」,能够根据画面配音,也能接受文字描述或参考音频,让声音按创作者意图生成。ControlFoley采用基于cav-mae改造的时空音视频编码器,并引入「时间-音色解耦」策略,确保声音与画面同步。该模型在多个常规视频配音测试中达到开源SOTA水平,项目的技术报告、代码、模型权重和demo均已开放。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。