您的位置：首页 > 其它

Kaldi语音识别注意事项

2017-10-25 20:27 369 查看

有关语音识别的工作除了Torch，还使用过Kaldi工具箱，也同样整理一下需要注意的细节。参考了thchs30的使用示例。

1. 同样需要注意自己准备的语音数据格式(***.wav等)，声道数，采样频率等属性，采样频率不同需要在自己工程的s5/conf目录下修改mfcc.conf与

fbank.conf文件中的sample-frequency。

2. 并行进程数默认n=8，可根据计算机性能修改，同时自己准备的数据中train，dev，test人数均不得少于n。

3. 实验中出现过卡在某一条语句上的情况，没找出原因，但可以删除shell语句中的“&”，不把程序放在后台跑，这样就能顺利通过，具体在s5/run.sh文件中所有test的命令后与s5/local/nnet/run_dnn.sh文件的dnn模型中的“&”都删除，就解决了这个问题。

4. 在s5/run.sh的最后一步train dae model时，总是没有跑成功，如果有成功运行的高手能指导一下就不胜感激了。

5. 自己准备的数据集，特别是小型的语料库，需要自己生成语言模型，可以用srilm建立语言模型，一般分别生成音素phone和单词word的3-Gram语言模型，放在与语音数据同目录下。srilm工具有许多博主介绍过，很容易找到使用方法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 语音识别数据

相关文章推荐

新的分享

章节导航