语音识别模型有哪些？

一、工业级闭源模型：扛把子选手

这类模型通常由大厂维护，API稳定，但需要付费或受限于平台生态。

OpenAI Whisper API（官网）
目前公认的多语言识别天花板，支持99种语言，对中文、粤语、日语等非英语口音识别极准。我拿粤语新闻测试过，错误率不到5%。缺点是延迟较高（非流式），适合离线转写而非实时对话。收费按音频时长计，约$0.006/分钟。
Google Cloud Speech-to-Text（官网）
依托谷歌的USM模型，优势是实时流式识别和领域自适应（比如医疗、金融术语）。中文识别准确率在95%以上，但遇到背景噪声大的录音（比如咖啡馆）会有点崩。前60分钟免费，之后$0.006~$0.024/分钟。
Azure Speech Service（官网）
微软的定制化王者，支持自建语音模型（上传语料微调）。企业用户常用，因为能跟Office 365、Teams深度集成。标准层$0.006/分钟，自定义模型另算。
Amazon Transcribe（官网）
强在大规模批处理和自动添加标点符号、敏感词过滤。适合做客服录音分析，但实时性不如谷歌。前12个月每月60分钟免费。

二、开源/可本地部署模型：技术宅的游乐场

如果你有GPU（至少8GB显存），这些模型能让你彻底摆脱API依赖和隐私顾虑。

OpenAI Whisper（开源版）（GitHub）
与API同款模型，但需要自己部署。我跑过large-v3模型，转录一段10分钟的英文播客，RTX 3060耗时约3分钟。推荐用WhisperX（GitHub）做加速，能实现实时转录。
Meta Wav2Vec 2.0（GitHub）
轻量化代表，模型只有300MB，手机端都能跑。但中文识别一塌糊涂（预训练数据里中文太少），适合纯英文场景。HuggingFace上有现成微调版本。
NVIDIA NeMo（GitHub）
英伟达的语音全家桶，包含Conformer-CTC模型，在英文基准测试（LibriSpeech）上错误率仅2.3%，比Whisper还低。缺点是模型太大（1.2GB），且对NVIDIA显卡有优化加成，A卡用户慎入。
Kaldi（GitHub）
学术界元老级框架，不推荐新手。配置复杂得像搭乐高，但灵活性极高，很多国内大厂（比如科大讯飞早期版本）底层就是它。

三、中文特化模型：谁更懂中文？

国内厂商在中文场景（尤其是方言、口语化表达）上往往比国际模型更强。

模型/产品	所属公司	核心特点	收费模式
讯飞听见	科大讯飞	中文识别率99%，支持粤语、四川话等方言；有实时转写硬件（录音笔）	免费版每月5小时；付费版￥30/月起
百度语音识别	百度	短语音免费；长语音按次计费；集成度高（百度云生态）	短语音免费；长语音￥0.002/次
阿里云语音识别	阿里云	支持热词定制（比如行业术语），实时流式识别延迟低于200ms	新用户送3小时，之后￥0.0008/秒

实测下来，讯飞在嘈杂环境下的中文识别最稳，但价格也最贵；百度适合个人开发者练手；阿里云适合企业级高并发场景。

四、选型建议：照着抄作业

个人博主/播客转写：用Whisper开源版（免费+隐私），搭配whisper.cpp（GitHub）在MacBook上就能跑。
实时会议/直播字幕：选Google Cloud或阿里云，延迟最低。
医疗/法律等专业领域：Azure Speech Service或讯飞（支持定制热词和模型微调）。
纯英文+离线部署：NVIDIA NeMo的Conformer-CTC，精度和速度的平衡最佳。
学生党/研究：Kaldi虽然过时，但能帮你理解语音识别底层原理。

语音识别模型有哪些？

相关 AI 产品

豆包语音识别模型 2.0

相关文章

新手必看：8款免费又好用的AI语音识别工具推荐

墨问VS竞品对比：AI笔记工具谁更胜一筹？

相关资讯快讯

微软发布首款自研AI推理模型MAI-Thinking-1

阶跃StepAudio 2.5 ASR上线：全球最快的ASR大模型，500TPS极速推理

阿里通义fun-asr1.5发布：单模型覆盖30种语言七大方言，错误率下降56%

【2026年4月快讯】Google Gemma 4、微软MAI模型同日发布，小型开源模型性能跃升

相关话题

语音识别模型

一、工业级闭源模型：扛把子选手

二、开源/可本地部署模型：技术宅的游乐场

三、中文特化模型：谁更懂中文？

四、选型建议：照着抄作业

相关问题

蚂蚁阿福

灵光AI助手

Google Antigravity

Xiaomi MiMo Studio

即梦

WorkBuddy

飞影数字人

堆友AI图片翻译

Xiaomi MiMo Studio

OpenRouter完整使用指南 – 从注册到API调用的详细教程

橙星梦工厂

腾讯WeMake工业互联网平台

蚂蚁阿福

豆包

Recraft AI

DataTool——全能型网页视频深度采集与处理利器

Xiaomi MiMo Studio

ima知识库

语音识别模型有哪些？

相关 AI 产品

豆包语音识别模型 2.0

相关文章

新手必看：8款免费又好用的AI语音识别工具推荐

墨问VS竞品对比：AI笔记工具谁更胜一筹？

相关资讯快讯

微软发布首款自研AI推理模型MAI-Thinking-1

阶跃StepAudio 2.5 ASR上线：全球最快的ASR大模型，500TPS极速推理

阿里通义fun-asr1.5发布：单模型覆盖30种语言七大方言，错误率下降56%

【2026年4月快讯】Google Gemma 4、微软MAI模型同日发布，小型开源模型性能跃升

相关话题

语音识别模型

一、工业级闭源模型：扛把子选手

二、开源/可本地部署模型：技术宅的游乐场

三、中文特化模型：谁更懂中文？

四、选型建议：照着抄作业

相关问题

相关专题

AI产品库总榜

蚂蚁阿福

灵光AI助手

Google Antigravity

Xiaomi MiMo Studio

即梦

WorkBuddy

AI产品库日榜

飞影数字人

堆友AI图片翻译

Xiaomi MiMo Studio

OpenRouter完整使用指南 – 从注册到API调用的详细教程

橙星梦工厂

腾讯WeMake工业互联网平台

AI产品库月榜

蚂蚁阿福

豆包

Recraft AI

DataTool——全能型网页视频深度采集与处理利器

Xiaomi MiMo Studio

ima知识库