2026-04-19 11:39

阶跃发布新一代语音生成模型，支持零样本音色复刻

2026年4月16日，阶跃星辰正式发布新一代语音生成模型StepAudio 2.5 TTS，并在阶跃星辰开放平台和Step Plan全量上线。该模型在全局语境控制、文中语境控制、零样本复刻与全音色控制等方面进行了全面升级，主要面向角色配音、有声内容创作、智能语音交互等应用场景。

StepAudio 2.5 TTS支持对整段语音的情绪基调、角色状态和场景氛围进行全局控制，也可对句内及句间的语气、节奏、停顿、强弱、气声等表达细节进行精细调节。在音色方面，该模型支持Zero-shot音色复刻，并可在保留目标音色特征的基础上，对情感、风格和表达方式进行灵活调整。

最引人注目的是，StepAudio 2.5 TTS支持利用自然语言来进行合成控制。相较于传统标签或短语组合式控制，用户可直接通过自然语言描述所需的声音效果，以完成生成语音的精准细节控制。例如，用户可以描述"用温柔、略带沙哑的声音，像在耳边的轻声细语"，模型即可生成符合描述的语音效果。

从行业发展来看，随着语音生成技术向更多应用场景渗透，相关产品一方面需要进一步降低使用门槛，另一方面也需要提升生成内容的自然度、丰富度和表现力。在这一趋势下，自然语言控制正成为兼顾易用性与可表达性的一种重要方向。

StepAudio 2.5 TTS的发布，标志着阶跃星辰在多模态AI能力建设方面又迈出重要一步。此前，阶跃已发布Step系列大模型，包括Step 3.5 Flash推理模型等，并在多个应用场景实现商业化落地。此次语音模型的升级，将进一步丰富阶跃的AI能力矩阵，为开发者和企业提供更完整的AI解决方案。

值得关注的是，随着AI语音生成技术的快速发展，相关应用场景正在快速扩展，从传统的有声读物、智能客服，延伸到虚拟主播、游戏配音、影视后期等新兴领域。StepAudio 2.5 TTS的推出，将为这些领域带来更高质量、更灵活的语音生成能力。

热门AI工具推荐