阶跃发布StepAudio 2.5 TTS:支持零样本音色复刻,自然语言精细控制语音生成

时间:2026年4月16日

地点:中国

人物:阶跃星辰

事件详情:阶跃发布新一代语音生成模型StepAudio 2.5 TTS,该模型围绕全局语境控制、文中语境控制,以及零样本复刻与全音色控制等能力进行了升级,主要面向角色配音、有声内容创作、智能语音交互等场景。

背景:随着语音生成技术向更多应用场景渗透,相关产品需要进一步降低使用门槛,同时提升生成内容的自然度、丰富度和表现力。自然语言控制正成为兼顾易用性与可表达性的一种重要方向。

影响:
- 支持对整段语音的情绪基调、角色状态和场景氛围进行控制
- 可对句内及句间的语气、节奏、停顿、强弱、气声等表达细节进行调节
- Zero-shot音色复刻可在保留目标音色特征基础上调整情感、风格和表达方式
- 用户可直接通过自然语言描述所需声音效果完成生成语音的精准控制

总结:StepAudio 2.5 TTS已全量上线阶跃星辰开放平台和Step Plan,标志着语音生成技术在易用性与表现力方面取得重要突破,为角色配音、有声内容创作、智能语音交互等场景提供了更强大的工具。

参考来源:
- https://www.ifanr.com/digest/1662572
- https://www.tmtpost.com/7958991.html
- https://36kr.com/newsflashes