01. 特定人识别中的DTW算法简单介绍
2010-07-16 10:03
537 查看
DTW(Dynamic Time Warping)是动态时间规整算法,在语音识别系统中通常用于特定人识别,特定人识别即A用户使用这个语音识别系统,B用户使用就会出现语音识别出错或无法识别的现象。
DTW在语音识别系统中,是一个需要用户事先训练的系统。从操作方面上,首先需要训练,对需要控制的命令录制对应的语音;使用时只要说出与训练时同样的语音命令,即可出现识别结果,实现声控。
比如,一些简单的语音识别玩具,约10多个特定的命令词。
DTW在语音识别系统中充当数据匹配比对模块。语音识别系统首先采集用户的语音,经过端点检测,找出用户的有效语音而把其他非语音段给删除;然后经过MFCC特征提取,得到用户声音的特征,最后进入DTW,进行欧式距离的比对,距离最小对应的模板,即为识别结果。
几个名词解释:
MFCC--- 语音频谱包络抽取
欧式距离 --- 在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)
三维的公式是
d=sqrt(x1-x2)^+(y1-y2)^+z1-z2)^)
推广到n维空间,欧式距离的公式是
d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..n
xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标
DTW在语音识别系统中,是一个需要用户事先训练的系统。从操作方面上,首先需要训练,对需要控制的命令录制对应的语音;使用时只要说出与训练时同样的语音命令,即可出现识别结果,实现声控。
比如,一些简单的语音识别玩具,约10多个特定的命令词。
DTW在语音识别系统中充当数据匹配比对模块。语音识别系统首先采集用户的语音,经过端点检测,找出用户的有效语音而把其他非语音段给删除;然后经过MFCC特征提取,得到用户声音的特征,最后进入DTW,进行欧式距离的比对,距离最小对应的模板,即为识别结果。
几个名词解释:
MFCC--- 语音频谱包络抽取
欧式距离 --- 在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)
三维的公式是
d=sqrt(x1-x2)^+(y1-y2)^+z1-z2)^)
推广到n维空间,欧式距离的公式是
d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..n
xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标
相关文章推荐
- 人脸识别算法介绍
- 计算机视觉中经常需要识别或者定位某些几何图形,比如直线、圆、椭圆,还有其他一些图形。检测直线的霍夫变换提供了在图像中寻找直线的一种算法,是最简单的一种情形,后来发展到检测圆、椭圆、还有一般图形的霍夫变
- MUI框架-01-介绍-创建项目-简单页面
- 算法的简单介绍
- Hilbert曲线简单介绍及生成算法
- javascript_01_简单介绍
- 算法笔记_070-BellmanFord算法简单介绍(Java)
- FERET 人脸识别技术测试的简单介绍
- OCR身份证识别简单算法流程
- 算法之---堆的简单介绍
- 使用react-native做一个简单的应用-01项目介绍
- 算法笔记_070-BellmanFord算法简单介绍(Java)
- 几种优化算法的简单简单简单的介绍
- 算法笔记_071-SPFA算法简单介绍(Java)
- 学习笔记——K-means(1) 简要介绍、算法优劣、简单k-means的实现
- 汇编语言Day_01:汇编中常用的寄存器简单介绍
- 常用数据结构以及算法的简单介绍
- 算法设计和数据结构学习_5(BST&AVL&红黑树简单介绍)
- 基于BP神经网络的简单字符识别算法自小结(C语言版)
- 简单介绍算法一角