时间:2026年5月8日
地点:美国旧金山
人物:OpenAI公司
事件详情:OpenAI正式发布三款实时语音模型——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,通过Realtime API供开发者调用。其中GPT-Realtime-2是全球首款具备GPT-5级推理能力的语音模型,可在对话过程中进行推理、调用工具、处理用户打断并执行多步骤任务。
背景:传统语音助手在处理复杂对话时往往力不从心,难以进行深度推理和工具调用。OpenAI此次推出的实时语音模型旨在解决语音交互中的延迟、打断处理和多语言支持等核心难题,让语音智能体真正实现"听与做"的实时能力。
影响:
- 开发者可构建更复杂的语音助手,执行多步骤任务
- GPT-Realtime-Translate支持70种输入语言转13种输出语言的实时翻译
- GPT-Realtime-Whisper提供低延迟流式转录,适用于实时字幕和会议记录
- 推动语音智能体从简单对话向复杂推理演进
总结:GPT-Realtime-2专为实时交互设计,在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并灵活处理用户的打断或纠正。定价方面,GPT-Realtime-2音频输入每百万Token费用为32美元,输出为64美元,缓存输入仅需0.4美元。GPT-Realtime-Translate翻译速度与说话者同步,按分钟计费0.034美元。GPT-Realtime-Whisper按分钟计费0.017美元。三款模型标志着语音智能体进入实时推理时代。
参考来源:
https://www.ithome.com/0/947/482.htm
https://finance.sina.com.cn/tech/digi/2026-05-08/doc-inhxcusp2322995.shtml
https://www.sohu.com/a/1019735414_114838









