发布时间:2026-06-07 已有: 位 网友关注
币界网消息,Boson AI开放了自回归文本转语音(TTS)模型Higgs Audio v3的权重。该模型基于Qwen3-4B底座构建,参数量约40亿,专门针对实时语音智能体的流式交互进行了优化,支持在文本未完全生成时开始流式合成,以降低实时语音对话延迟。Higgs Audio v3 TTS支持100多种语言与方言,在多个测试集上的字词错误率降至个位数。该模型还支持零样本声音克隆,并允许在输入文本中直接嵌入20多种情绪及多类内联控制标签,以实现高度可控的语音表现力。Boson AI与LMSYS团队联合优化了该模型在SGLang-Omni推理框架上的端到端性能。在一张H100显卡上测试,单并发实时率达到0.147。权重已在Hugging Face上公开,采用非商业研究许可。