时间:2026年5月8日
地点:美国
人物:OpenAI
事件详情:OpenAI宣布通过API推出新一代语音模型GPT-Realtime-2,进一步推动AI语音智能发展。该模型支持实时语音对话,能够实现低延迟的双向语音交互,适用于客服、助手、翻译等多种应用场景。OpenAI同时公布了定价方案:音频输入每百万token收费32美元,音频输出每百万token收费64美元。这一价格相比前代模型有所优化,将为开发者提供更具性价比的语音AI解决方案。
背景:语音交互是AI应用的重要方向,实时语音AI在客服、教育、医疗等领域有广阔应用前景。OpenAI此前推出GPT-4o等语音模型,但在实时性和成本方面仍有优化空间。GPT-Realtime-2的推出,标志着OpenAI在语音AI领域的持续投入和技术进步,将进一步推动语音AI应用的普及。
影响:
- 降低语音AI应用开发门槛,推动实时语音交互技术普及
- 为开发者提供更灵活的语音AI解决方案选择
- 加剧AI语音市场竞争,谷歌、Anthropic等竞品压力增大
- 推动语音AI在客服、教育、医疗等垂直领域落地
总结:GPT-Realtime-2的推出展示了OpenAI在多模态AI领域的持续创新。实时语音交互是AI从文本走向自然交互的关键一步,随着技术成熟和成本下降,语音AI将在更多场景替代传统文本交互,成为AI应用的主流形式之一。
参考来源:
https://flash.jin10.com/detail/20260508073900921800
https://www.sohu.com/a/1019591901_115362









