时间: 2026年5月8日
地点: 全球
人物: OpenAI公司
事件详情: OpenAI发布三款全新音频大模型,分别为GPT-Speech-2.0、GPT-Audio-Understanding-1.0和GPT-Voice-Agent-1.0,标志着AI语音技术进入实时听与做的新时代。这些模型支持实时音频理解、语音合成和智能对话。
背景: 语音交互是AI应用的重要方向,传统语音助手往往存在响应延迟、理解不准确等问题。OpenAI新发布的音频模型在实时性、准确性和自然度方面实现了重大突破,为AI语音应用开辟了新可能。
影响:
- AI语音助手可实现实时对话,响应速度接近人类交流水平
- 语音智能体可在听的同时执行任务,提升多任务处理能力
- 推动AI在客服、教育、医疗等语音密集型场景的应用
总结: OpenAI发布三款音频大模型标志着语音AI技术迈入新阶段。实时听与做的能力将AI从被动响应转变为主动交互,为智能语音应用的普及奠定基础,推动AI更加自然地融入日常生活。
参考来源:
https://finance.sina.com.cn/jjxw/2026-05-08/doc-inhxcusp7759561.shtml
http://k.sina.com.cn/article_7857201856_1d45362c0019057ngw.html
https://www.sohu.com/a/1018879678_121238562









