本文主要为您介绍语音识别中出现问题的排查步骤及解决方案。
阿里云提醒您:
- 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。
- 如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建快照或开启RDS日志备份等功能。
- 如果您在阿里云平台授权或者提交过登录账号、密码等安全信息,建议您及时修改。
说明:
对于录音文件识别服务,还需查看是合轨还是分轨数据。
以客服场景为例,合轨指客户和客服的声音存在一个声道,不免会有语音重叠的时刻;分轨指客户和客服的声音分开存储在两个声道。
是否使用了热词或者自学习模型。
3*2=6KHz
(最高频段信息2倍即为实际采样率)。说明:语音识别不可能达到100%识别率。
在项目中选择支持的音频采样率场景的模型。
出现“吞音、辨识度不高、听不懂”等情况无法解决时:
如果存在方言和重口音,可能由于ASR的训练数据覆盖不全造成识别错误,请联系阿里智能语音交互工程师进一步评估。
如果有大量的重口音(非方言)识别需求,请联系阿里智能语音交互工程师进一步评估。
如果人噪被误识别,此问题很难解决。
噪声模型优先考虑只要是人发出的声音就会被送进ASR识别。
如果存在非人噪被误识别。
您可以多收集一些噪声数据,提供给阿里云进行噪声模型优化。
如果波形幅度不大、能量过低造成识别数据丢失,可能是由于音量太小被噪声模型当成噪声处理。
建议调整收音设备,或减小说话人与收音设备的距离。
如果波形幅度过大能量过高造成识别错误,可能是由于音量太大被截幅而语音失真,造成识别错误。
建议调整收音设备,或者说话人离收音设备远些。
如果频段信息不完整,可能会造成识别不准确,ASR模型的标准训练数据要求为频段完整的8K或16K采样率数据。
建议确保在频段信息完整的基础上,对识别不准确的地方使用自学习模型进行优化。
如果使用了热词,业务专属热词的权重不宜过高,权重太高可能会引起语句被截断,导致后续语音无法进行识别。
针对一般的识别错误,可以使用语音模型优化,将识别不佳的句子(非单个词)进行多复制几遍的操作。
对于使用录音文件识别服务,如果是合轨数据造成识别不准确。
建议采用分轨进行存储。
如果以上条件都不符合,或者尚未能解决您的问题,请提供识别有问题的语音数据以及该数据的正确识别结果和错误识别结果,简单描述该识别问题并提交工单,并补充以下完整信息:
信息 |
说明 |
---|---|
部署方式 |
公共云1.0或公共云2.0 |
调用服务 |
一句话识别、实时语音识别或录音文件识别 |
业务使用场景 |
无 |
数据采样率 |
8KHz或16KHz |
热词功能 |
是否使用热词功能 |
语言模型定制 |
是否使用语言模型定制且按照优化建议进行操作,详情请参见训练语料优化建议。 |
在文档使用中是否遇到以下问题
更多建议
匿名提交