2026-05-12 09:28

OpenAI连发三款实时语音模型，推理能力达GPT-5级水平

时间：2026年5月8日

地点：美国旧金山

人物：OpenAI

事件详情：OpenAI正式发布三款面向开发者的实时音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。GPT-Realtime-2是首个具备GPT-5级推理能力的语音模型，支持128K上下文窗口（上一代为32K），可处理复杂请求、调用外部工具、处理中途打断，并维持长会话上下文。GPT-Realtime-Translate支持70多种输入语言翻译为13种输出语言，适用于直播、电话、视频会议等场景。GPT-Realtime-Whisper专注于语音转写任务。

背景：这是OpenAI在语音AI领域的又一次重要迭代，从早期的体验功能转向企业级API服务。在Big Bench Audio上性能比前代高15.2%，在Audio MultiChallenge上高13.8%。

影响：
- 为开发者提供更强大的实时语音交互能力
- 推动语音AI在企业级应用场景落地
- 加速语音助手、智能客服等领域的智能化升级

总结：OpenAI此次发布的实时语音模型系列标志着语音AI从娱乐化应用向生产级工具的转型，GPT-Realtime-2的GPT-5级推理能力为复杂语音交互场景提供了新的技术方案，有望推动实时语音助手、跨语言沟通等场景的快速发展。

参考来源：
https://k.sina.com.cn/article_7857141524_1d452771401902dumk.html
https://www.sina.com.cn/article_7857141524_1d452771401902dumk.html
https://openai.com/

热门AI工具推荐