2026-05-08 12:18

OpenAI发布三款全新音频大模型：语音智能体进入实时听与做时代

时间：2026年5月8日

地点：美国

人物：OpenAI

事件详情：OpenAI面向开发者正式发布三款全新音频大模型，包括GPT-Realtime-2、实时翻译模型与实时转写模型。此举旨在大幅提升语音智能体的交互自然度，并赋予其在实时对话中直接执行任务的能力。GPT-Realtime-2搭载GPT-5级别的推理能力，人声仿真度更高，可精准理解并处理复杂人类指令。实时翻译模型支持70余种语言识别、13种语言语音输出，可同步人声语速完成实时翻译。

背景：随着AI技术发展，语音交互成为重要方向。传统语音AI需要经过语音转录、文本处理、语音合成等多个步骤，响应延迟较高。新版API的开放，使OpenAI跨越传统的语音转录与文本聊天阶段，向构建具备实时监听、翻译及执行能力的智能体延伸。

影响：
- 大幅降低企业开发智能语音应用的技术门槛
- 推动AI语音助手进入实时交互新时代
- 为多语言沟通场景提供更流畅的解决方案
- 加速AI智能体在实际应用场景的落地

总结：OpenAI此次推出的三款音频大模型标志着AI语音技术的重要突破，从单纯的对话工具进化为能够实时听、说、翻译、执行的智能体。这将为客服、翻译、教育等多个领域带来革命性变化，推动AI应用从文本交互向语音交互的深度转型。

参考来源：
https://www.toutiao.com/article/7637304267665179136/
https://www.toutiao.com/article/7637345516866552354/

热门AI工具推荐