2026-05-08 18:25

OpenAI发布三款全新音频大模型,语音智能体进入实时听与做时代

时间: 2026年5月8日

地点: 全球

人物: OpenAI公司

事件详情: OpenAI发布三款全新音频大模型,分别为GPT-Speech-2.0、GPT-Audio-Understanding-1.0和GPT-Voice-Agent-1.0,标志着AI语音技术进入实时听与做的新时代。这些模型支持实时音频理解、语音合成和智能对话。

背景: 语音交互是AI应用的重要方向,传统语音助手往往存在响应延迟、理解不准确等问题。OpenAI新发布的音频模型在实时性、准确性和自然度方面实现了重大突破,为AI语音应用开辟了新可能。

影响:
- AI语音助手可实现实时对话,响应速度接近人类交流水平
- 语音智能体可在听的同时执行任务,提升多任务处理能力
- 推动AI在客服、教育、医疗等语音密集型场景的应用

总结: OpenAI发布三款音频大模型标志着语音AI技术迈入新阶段。实时听与做的能力将AI从被动响应转变为主动交互,为智能语音应用的普及奠定基础,推动AI更加自然地融入日常生活。

参考来源:
https://finance.sina.com.cn/jjxw/2026-05-08/doc-inhxcusp7759561.shtml
http://k.sina.com.cn/article_7857201856_1d45362c0019057ngw.html
https://www.sohu.com/a/1018879678_121238562

热门AI工具推荐