Kaldi语音识别注意事项
2017-10-25 20:27
369 查看
有关语音识别的工作除了Torch,还使用过Kaldi工具箱,也同样整理一下需要注意的细节。参考了thchs30的使用示例。
1. 同样需要注意自己准备的语音数据格式(***.wav等),声道数,采样频率等属性,采样频率不同需要在自己工程的s5/conf目录下修改mfcc.conf与
fbank.conf文件中的sample-frequency。
2. 并行进程数默认n=8,可根据计算机性能修改,同时自己准备的数据中train,dev,test人数均不得少于n。
3. 实验中出现过卡在某一条语句上的情况,没找出原因,但可以删除shell语句中的“&”,不把程序放在后台跑,这样就能顺利通过,具体在s5/run.sh文件中所有test的命令后与s5/local/nnet/run_dnn.sh文件的dnn模型中的“&”都删除,就解决了这个问题。
4. 在s5/run.sh的最后一步train dae model时,总是没有跑成功,如果有成功运行的高手能指导一下就不胜感激了。
5. 自己准备的数据集,特别是小型的语料库,需要自己生成语言模型,可以用srilm建立语言模型,一般分别生成音素phone和单词word的3-Gram语言模型,放在与语音数据同目录下。srilm工具有许多博主介绍过,很容易找到使用方法。
1. 同样需要注意自己准备的语音数据格式(***.wav等),声道数,采样频率等属性,采样频率不同需要在自己工程的s5/conf目录下修改mfcc.conf与
fbank.conf文件中的sample-frequency。
2. 并行进程数默认n=8,可根据计算机性能修改,同时自己准备的数据中train,dev,test人数均不得少于n。
3. 实验中出现过卡在某一条语句上的情况,没找出原因,但可以删除shell语句中的“&”,不把程序放在后台跑,这样就能顺利通过,具体在s5/run.sh文件中所有test的命令后与s5/local/nnet/run_dnn.sh文件的dnn模型中的“&”都删除,就解决了这个问题。
4. 在s5/run.sh的最后一步train dae model时,总是没有跑成功,如果有成功运行的高手能指导一下就不胜感激了。
5. 自己准备的数据集,特别是小型的语料库,需要自己生成语言模型,可以用srilm建立语言模型,一般分别生成音素phone和单词word的3-Gram语言模型,放在与语音数据同目录下。srilm工具有许多博主介绍过,很容易找到使用方法。
相关文章推荐
- Torch+DeepSpeech2的语音识别注意事项
- 语音识别Kaldi
- Android手势识别 Camera 预览界面上显示文字 布局注意事项(merge布局)
- 语音识别-----Kaldi学习链接分享
- 如何识别碟商?新手买碟注意事项(汇总版)
- Android手势识别 Camera 预览界面上显示文字 布局注意事项(merge布局)
- 关于HiAR SDK的云识别注意事项
- python使用百度语音识别API注意事项
- 基于kaldi的在线语音识别
- 汉王文本王OCR识别注意事项
- kaldi跑timit的注意事项
- WIN5语音ic注意事项
- 三角识别注意事项
- 指纹识别技术设计的注意事项
- kaldi 中安装GridEngine的一些注意事项
- 使用OpenCV开发人脸识别及相关注意事项
- HTML5语音播报引发的:关于TTS引擎扩展及修复注意事项
- Android手势识别 Camera 预览界面上显示文字 布局注意事项(merge布局)
- kaldi 中安装GridEngine的一些注意事项
- 语音增加数据的操作方法与注意事项