新手做深度学习项目-话者识别系统
2017-08-12 21:53
861 查看
本科毕业设计选的是”基于深度学习的话者识别系统“题目,没接触过深度学习,也不懂话者识别是什么意思,尴尬,只能硬着头皮去一点一点啃了。
这里我总结一下,我做完这个项目之后,对话者识别这个领域,对深度学习这个方向学习的所感所得,分享给大家。
下面,我总结下,我的毕设的工作,如下图所示。
观察结果,然后调节参数。
在使用CNN时,调节了输入的语谱图,对其归一化处理,然后调节了CNN中的全连接层参数。 最终,识别效果得到了大幅度提升。
residual network是imagenet夺冠的一个神经网络模型,16年火起来的,因此,也拿来用到了话者识别系统中去。毕竟我们的语音是转成图像处理的,效果很显著。
写一些关于自己对深度学习的小感悟吧。
对于新手,要先学会去用。先不用理会内部的逻辑,明确输入输出是什么就可以。 网上对于常见的深度学习网络开源的太多了,github上,输入cnn,rnn,等等,就能找到好多, 下载下来简单修改下就可以运行。
新手可以尝试keras框架,它是在tensorflow基础上封装的更高层的深度学习框架。使用起来更简单方便。tensorflow可能搞起来难度更大一些。
玩过几个项目之后,熟悉了整个流程,可以去深入学习tensorflow框架,深入去学习每一种神经网络的结构。
这里给大家分享一本深度学习的书,市面上仅有的一本,目前应该还只有电子版。
链接:http://pan.baidu.com/s/1o8KAVWI 密码:bnc9
这里我总结一下,我做完这个项目之后,对话者识别这个领域,对深度学习这个方向学习的所感所得,分享给大家。
关于话者识别
通过看论文,发现,话者识别在2016年之前,还是停留在用ivector、GMM-UBM,这些简单的机器学习模型,然后用PLDA降维优化;2016年之后,可能深度学习在这个时候忽然间火起来了,有一些学者将DNN(深度神经网络)应用到了话者识别系统中去了,只是简单的用了下DNN ,并没有过多的去优化。下面,我总结下,我的毕设的工作,如下图所示。
数据处理
前期,大量的工作就是语音数据的处理,训练集,测试集的生成,将语音文件处理成自己需要的形式-语谱图;模型
明确模型的输入输出,直接在机器上运行就可以了;观察结果,然后调节参数。
在使用CNN时,调节了输入的语谱图,对其归一化处理,然后调节了CNN中的全连接层参数。 最终,识别效果得到了大幅度提升。
residual network是imagenet夺冠的一个神经网络模型,16年火起来的,因此,也拿来用到了话者识别系统中去。毕竟我们的语音是转成图像处理的,效果很显著。
关于深度学习
对于深度学习,我也是新手,接触不久,接下来我会在这个方向一直深入做下去,也会写更多关于深度学习的文章分享给大家。写一些关于自己对深度学习的小感悟吧。
对于新手,要先学会去用。先不用理会内部的逻辑,明确输入输出是什么就可以。 网上对于常见的深度学习网络开源的太多了,github上,输入cnn,rnn,等等,就能找到好多, 下载下来简单修改下就可以运行。
新手可以尝试keras框架,它是在tensorflow基础上封装的更高层的深度学习框架。使用起来更简单方便。tensorflow可能搞起来难度更大一些。
玩过几个项目之后,熟悉了整个流程,可以去深入学习tensorflow框架,深入去学习每一种神经网络的结构。
这里给大家分享一本深度学习的书,市面上仅有的一本,目前应该还只有电子版。
链接:http://pan.baidu.com/s/1o8KAVWI 密码:bnc9
相关文章推荐
- 接深度学习,opencv人脸识别,目标检测等项目
- 深度学习与模式识别之项目整理
- 深度学习与模式识别之项目整理
- 机器学习/深度学习个人进阶日志-基于Tensorflow的手写数字识别项目最终篇
- 深度学习与人脸识别系列(2)__基于VGGNet的人脸识别系统
- py3+tensorflow+opencv基于深度学习制作人脸识别系统学习历程(持续更新)
- 深度学习基于VGGNet的人脸识别系统及fine-tuing
- 深度学习项目示例-采用caffe实现LENET网络实现铲齿识别-并可视化过程
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- 深度学习与神经网络实战:快速构建一个基于神经网络的手写数字识别系统
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- 深度学习与人脸识别系列(2)__基于VGGNet的人脸识别系统
- 【备忘】最新人脸识别深度学习项目实战视频教程
- 集天气预报,TTS,深度学习人脸识别,邮件发送,温湿度采集,消息推送,lcd1602一体的树莓派开源项目
- 深度学习装机、系统、环境配置指南--预算15000
- 深度学习:多层感知机MLP数字识别的代码实现
- SpeeDO —— 并行深度学习系统
- 各类识别、深度学习 开源代码及文献梳理
- 深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统