发布时间:2026-06-07 已有: 位 网友关注
币界网消息,小红书hi lab开源了20亿参数的端到端自回归文本转语音模型dots.tts,并采用Apache 2.0协议公开了完整的推理与微调代码。公开发布的权重包括基础预训练版本、自我纠错对齐微调版本以及低延迟推理蒸馏版本。不同于传统依赖离散音频编解码token的TTS架构,dots.tts实现了全连续、端到端的自回归流匹配架构,在整个管线中完全不使用任何离散token。该模型基于约150万小时语音数据预训练,在多个评测中均达到开源SOTA水平。小红书已在Hugging Face空间,供用户在线测试零样本声音克隆。