阶跃发布新一代语音生成模型,支持零样本音色复刻

2026年4月16日,阶跃星辰正式发布新一代语音生成模型StepAudio 2.5 TTS,并在阶跃星辰开放平台和Step Plan全量上线。该模型在全局语境控制、文中语境控制、零样本复刻与全音色控制等方面进行了全面升级,主要面向角色配音、有声内容创作、智能语音交互等应用场景。

StepAudio 2.5 TTS支持对整段语音的情绪基调、角色状态和场景氛围进行全局控制,也可对句内及句间的语气、节奏、停顿、强弱、气声等表达细节进行精细调节。在音色方面,该模型支持Zero-shot音色复刻,并可在保留目标音色特征的基础上,对情感、风格和表达方式进行灵活调整。

最引人注目的是,StepAudio 2.5 TTS支持利用自然语言来进行合成控制。相较于传统标签或短语组合式控制,用户可直接通过自然语言描述所需的声音效果,以完成生成语音的精准细节控制。例如,用户可以描述"用温柔、略带沙哑的声音,像在耳边的轻声细语",模型即可生成符合描述的语音效果。

从行业发展来看,随着语音生成技术向更多应用场景渗透,相关产品一方面需要进一步降低使用门槛,另一方面也需要提升生成内容的自然度、丰富度和表现力。在这一趋势下,自然语言控制正成为兼顾易用性与可表达性的一种重要方向。

StepAudio 2.5 TTS的发布,标志着阶跃星辰在多模态AI能力建设方面又迈出重要一步。此前,阶跃已发布Step系列大模型,包括Step 3.5 Flash推理模型等,并在多个应用场景实现商业化落地。此次语音模型的升级,将进一步丰富阶跃的AI能力矩阵,为开发者和企业提供更完整的AI解决方案。

值得关注的是,随着AI语音生成技术的快速发展,相关应用场景正在快速扩展,从传统的有声读物、智能客服,延伸到虚拟主播、游戏配音、影视后期等新兴领域。StepAudio 2.5 TTS的推出,将为这些领域带来更高质量、更灵活的语音生成能力。