时间:2026年5月22日
地点:中国
人物:智谱AI公司
事件详情:5月22日,智谱宣布面向部分企业客户提供GLM-5.1高速版API"GLM-5.1-highspeed",模型输出速度达到400 tokens/s。该高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景,现已面向智谱MaaS平台部分企业客户开放服务。
背景:随着AI应用场景多元化,实时性成为关键指标。传统大模型推理速度难以满足实时交互、语音识别等场景需求。智谱GLM-5.1高速版通过技术优化,大幅提升输出速度,填补高速推理市场空白。
影响:
- 提升AI实时交互体验
- 降低企业AI应用延迟成本
- 推动AI编程、实时语音等场景应用普及
- 增强国产大模型在高速推理领域竞争力
总结:智谱GLM-5.1高速版以400 tokens/s的输出速度,为企业提供高性能AI推理服务,特别适合实时交互场景。这一进展标志着国产大模型在推理速度方面取得重要突破。
参考来源:
https://baijiahao.baidu.com/s?id=1865939038700173500
https://www.jiemian.com/
https://www.zhipuai.cn/








