您的位置:首页 > 其它

Kaldi语音识别注意事项

2017-10-25 20:27 369 查看
有关语音识别的工作除了Torch,还使用过Kaldi工具箱,也同样整理一下需要注意的细节。参考了thchs30的使用示例。

1. 同样需要注意自己准备的语音数据格式(***.wav等),声道数,采样频率等属性,采样频率不同需要在自己工程的s5/conf目录下修改mfcc.conf与

fbank.conf文件中的sample-frequency。

2. 并行进程数默认n=8,可根据计算机性能修改,同时自己准备的数据中train,dev,test人数均不得少于n。

3. 实验中出现过卡在某一条语句上的情况,没找出原因,但可以删除shell语句中的“&”,不把程序放在后台跑,这样就能顺利通过,具体在s5/run.sh文件中所有test的命令后与s5/local/nnet/run_dnn.sh文件的dnn模型中的“&”都删除,就解决了这个问题。

4. 在s5/run.sh的最后一步train dae model时,总是没有跑成功,如果有成功运行的高手能指导一下就不胜感激了。

5. 自己准备的数据集,特别是小型的语料库,需要自己生成语言模型,可以用srilm建立语言模型,一般分别生成音素phone和单词word的3-Gram语言模型,放在与语音数据同目录下。srilm工具有许多博主介绍过,很容易找到使用方法。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  语音识别 数据