BosonAI开源4B音频模型HiggsAudiov3，支持流式情感控制

发布时间：2026-06-07 已有：位网友关注

　　币界网消息，Boson AI开放了自回归文本转语音(TTS)模型Higgs Audio v3的权重。该模型基于Qwen3-4B底座构建，参数量约40亿，专门针对实时语音智能体的流式交互进行了优化，支持在文本未完全生成时开始流式合成，以降低实时语音对话延迟。Higgs Audio v3 TTS支持100多种语言与方言，在多个测试集上的字词错误率降至个位数。该模型还支持零样本声音克隆，并允许在输入文本中直接嵌入20多种情绪及多类内联控制标签，以实现高度可控的语音表现力。Boson AI与LMSYS团队联合优化了该模型在SGLang-Omni推理框架上的端到端性能。在一张H100显卡上测试，单并发实时率达到0.147。权重已在Hugging Face上公开，采用非商业研究许可。