时间:2026年4月20日
地点:中国杭州
人物:阿里通义实验室
事件详情:阿里通义实验室宣布正式推出语音识别大模型fun-asr1.5。据介绍,它基于统一的大模型架构,单模型即可无缝覆盖30种语言、汉语七大方言体系及20+地方口音,古诗词吟诵也能精准转写。测试显示,典型方言场景字错误率(CER)相对下降56.2%。目前已有5种方言准确率突破90%,15种超过80%。
背景:此前,语音识别模型通常需要针对每种语言或方言单独训练模型,导致部署复杂度和成本较高。fun-asr1.5通过统一的大模型架构,实现了对多种语言和方言的自然支持,大幅简化了多语言语音识别的部署难度。
影响:
- 推动语音识别技术普惠,覆盖更多小语种和方言用户
- 降低多语言语音交互产品开发成本
- 为古籍吟诵等文化遗产数字化提供技术支撑
- 阿里通义进一步扩展其在语音AI领域的技术优势
总结:阿里通义fun-asr1.5的发布标志着语音识别技术在大模型架构下实现了重要突破。统一的大模型架构不仅简化了多语言支持,还大幅提升了方言识别准确率。目前5种方言准确率突破90%,15种超过80%,为未来更广泛的语音交互应用奠定了基础。
参考来源:
https://www.cls.cn/subject/1321
https://finance.sina.com.cn/7x24/2026-04-20/doc-inhvauhf9941674.shtml
https://www.ifanr.com/category/aigc
https://techcrunch.com/category/artificial-intelligence/
https://venturebeat.com/category/ai/