2026-05-09 09:47

OpenAI发布GPT-Realtime-2：首款具备GPT-5级推理能力的语音模型

时间：2026年5月8日

地点：美国旧金山

人物：OpenAI公司

事件详情：OpenAI正式发布三款实时语音模型——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，通过Realtime API供开发者调用。其中GPT-Realtime-2是全球首款具备GPT-5级推理能力的语音模型，可在对话过程中进行推理、调用工具、处理用户打断并执行多步骤任务。

背景：传统语音助手在处理复杂对话时往往力不从心，难以进行深度推理和工具调用。OpenAI此次推出的实时语音模型旨在解决语音交互中的延迟、打断处理和多语言支持等核心难题，让语音智能体真正实现"听与做"的实时能力。

影响：
- 开发者可构建更复杂的语音助手，执行多步骤任务
- GPT-Realtime-Translate支持70种输入语言转13种输出语言的实时翻译
- GPT-Realtime-Whisper提供低延迟流式转录，适用于实时字幕和会议记录
- 推动语音智能体从简单对话向复杂推理演进

总结：GPT-Realtime-2专为实时交互设计，在保持对话自然流畅的前提下，能在对话过程中进行推理、调用工具，并灵活处理用户的打断或纠正。定价方面，GPT-Realtime-2音频输入每百万Token费用为32美元，输出为64美元，缓存输入仅需0.4美元。GPT-Realtime-Translate翻译速度与说话者同步，按分钟计费0.034美元。GPT-Realtime-Whisper按分钟计费0.017美元。三款模型标志着语音智能体进入实时推理时代。

参考来源：
https://www.ithome.com/0/947/482.htm
https://finance.sina.com.cn/tech/digi/2026-05-08/doc-inhxcusp2322995.shtml
https://www.sohu.com/a/1019735414_114838

热门AI工具推荐