时间:2026年5月8日
地点:美国旧金山
人物:OpenAI
事件详情:OpenAI正式发布三款面向开发者的实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。GPT-Realtime-2是首个具备GPT-5级推理能力的语音模型,支持128K上下文窗口(上一代为32K),可处理复杂请求、调用外部工具、处理中途打断,并维持长会话上下文。GPT-Realtime-Translate支持70多种输入语言翻译为13种输出语言,适用于直播、电话、视频会议等场景。GPT-Realtime-Whisper专注于语音转写任务。
背景:这是OpenAI在语音AI领域的又一次重要迭代,从早期的体验功能转向企业级API服务。在Big Bench Audio上性能比前代高15.2%,在Audio MultiChallenge上高13.8%。
影响:
- 为开发者提供更强大的实时语音交互能力
- 推动语音AI在企业级应用场景落地
- 加速语音助手、智能客服等领域的智能化升级
总结:OpenAI此次发布的实时语音模型系列标志着语音AI从娱乐化应用向生产级工具的转型,GPT-Realtime-2的GPT-5级推理能力为复杂语音交互场景提供了新的技术方案,有望推动实时语音助手、跨语言沟通等场景的快速发展。
参考来源:
https://k.sina.com.cn/article_7857141524_1d452771401902dumk.html
https://www.sina.com.cn/article_7857141524_1d452771401902dumk.html
https://openai.com/








