当前位置:主页 > 快讯 > 正文

阶跃StepAudio2.5TTS上线,情绪控制精细到“克制的悲伤、没有哭腔”

发布时间:2026-04-16 已有: 位 网友关注

  币界网消息,4 月 16 日,据 动察 Beating 监测,阶跃星辰正式发布 StepAudio 2.5 TTS。与需要预设情绪标签的传统 TTS 不同,这一代支持用自然语言描述控制语音的每一处细节:标签只能表达「悲伤」,自然语言可以进一步描述「克制的悲伤、没有哭腔、轻轻发颤」,AI 据此合成对应音色。 控制分三层。全局语境控制设定整段语音的情绪基调和场景氛围,让多轮对话中的角色表达保持连贯;文中语境控制在句子层面调节语气、节奏、停顿、重音和呼吸感,甚至可以刻画角色的心理活动和潜台词;零样本音色复刻无需重新训练,任意参考录音即可仿出音色,情感和风格可独立调节。三项功能已全量上线阶跃星辰开放平台和 Step Plan。 同一天,谷歌也发布了 Gemini 3.1 Flash TTS,同样以自然语言指令替代 SSML 标签实现精细控制,并在第三方评测中登顶。两家在同日用相同思路发版,说明 TTS 的控制范式正在集体从「选标签」转向「说需求」。对有声内容创作者和配音导演来说,以前调情绪要靠反复录制,现在用一句话描述就能定义音色的细腻层次。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。