应用HTK搭建连续语音识别系统(总结)
2010-05-21 17:00
288 查看
一 基于HMM的连续语音识别与HTK工具包介绍
语音识别系统的分类
被识别人:特定人 非特定人
词汇量:小词汇量 中词汇量 大词汇量
说话方式:孤立词 连接词 连续词
语言:汉语 英语 法语…
我们做的非特定人大词汇量连续汉语语音识别系统
也叫 汉语语音听写机
隐马尔可夫模型(Hidden Markov Model)
隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到每个
观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程
----具有一定状态数的隐马尔可夫链和显示随机函数集。
~o <VecSize> 39 <MFCC_0_D_A>
~h "proto"
<BeginHMM>
<NumStates> 5
<State> 2
<Mean> 39
0.0 …… 0.0
<Variance> 39
1.0 …… 1.0
<State> 3
<Mean> 39
0.0 …… 0.0
<Variance> 39
1.0 …… 1.0
……
<TransP> 5
0.0 1.0 0.0 0.0 0.0
0.0 0.6 0.4 0.0 0.0
0.0 0.0 0.6 0.4 0.0
0.0 0.0 0.0 0.7 0.3
0.0 0.0 0.0 0.0 0.0
<EndHMM>
一个HMM模型
HTK工具包 包括:
数据准备工具
HDMan、HCopy、HLEd、HSGen、HBuild、HLStats 、HParse
模型训练及优化工具
HERest、HInit、HRest、HHEd、HCompV
识别工具
HVite
性能评估工具
HResults、HRec
二 搭建连续语音识别系统
数据准备
定义语法
$word=a|ai|an|ang|ao|ba|bai|ban|bang|
……|silence;
( SENT-START <$word> SENT-END)
建立声学模型
b
p
m
f
d
t
n
l
x
zh
ch
sh
z
c
...
最后更新为上下文相关声学模型
z+uo
z-uo
h+ao
h-ao
n+a
n-a
sh+i
sh-i
l+i
sh-ang
y+ou
y-ou
d+e
...
语料库
Sentence
010001:作品一号
Sentence
spell:zuo4 pin3 yi1 hao4
Sentence
010002:那是力争上游的一种树
Sentence
spell:na4 shi4 li4 zheng1 shang4 you2 de0 yi1 zhong3 shu4
Sentence
010003:笔直的干
Sentence
spell:bi3 zhi2 de0 gan4
Sentence
010004:笔直的枝
Sentence
spell:bi3 zhi2 de0 zhi1
Sentence
010005:它的干呢
Sentence
spell:ta1 de0 gan4 ne0
Sentence
010006:通常是丈把高
Sentence
spell:tong1 chang2 shi4 zhang4 ba3 gao1
Sentence
010007:象是加以人工似的
Sentence
spell:xiang4 shi4 jia1 yi3 ren2 gong1 shi4 de0
Sentence
010008:一丈以内
Sentence
spell:yi1 zhang4 yi3 nei4
Sentence
010009:绝无旁枝
Sentence
spell:jve2 wu2 pang2 zhi1
Sentence
010010:它所有的丫枝呢
Sentence
spell:ta1 suo3 you3 de0 ya1 zhi1 ne0
Sentence
010011:一律向上
Sentence
spell:yi1 lv4 xiang4 shang4
Sentence
010012:而且紧紧靠拢
Sentence
spell:er2 qie2 jin3 jin3 kao4 long3
Sentence
010013:也象是加以人工似的
Sentence
spell:ye3 xiang4 shi4 jia1 yi3 ren2 gong1 shi4 de0
自己录制+网上交换语料 一共有大概3G的语料
数据特征提取
MFCC 利用HCOPY工具
数据训练
为每一个基元建立一个隐马模型
+
上下文无关训练
+
上下文相关训练
+
增加混合度训练
识别率
------------
Overall Results ------
WORD:
%Corr=85.71, Acc=79.15
==================================
语音识别系统的分类
被识别人:特定人 非特定人
词汇量:小词汇量 中词汇量 大词汇量
说话方式:孤立词 连接词 连续词
语言:汉语 英语 法语…
我们做的非特定人大词汇量连续汉语语音识别系统
也叫 汉语语音听写机
隐马尔可夫模型(Hidden Markov Model)
隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到每个
观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程
----具有一定状态数的隐马尔可夫链和显示随机函数集。
~o <VecSize> 39 <MFCC_0_D_A>
~h "proto"
<BeginHMM>
<NumStates> 5
<State> 2
<Mean> 39
0.0 …… 0.0
<Variance> 39
1.0 …… 1.0
<State> 3
<Mean> 39
0.0 …… 0.0
<Variance> 39
1.0 …… 1.0
……
<TransP> 5
0.0 1.0 0.0 0.0 0.0
0.0 0.6 0.4 0.0 0.0
0.0 0.0 0.6 0.4 0.0
0.0 0.0 0.0 0.7 0.3
0.0 0.0 0.0 0.0 0.0
<EndHMM>
一个HMM模型
HTK工具包 包括:
数据准备工具
HDMan、HCopy、HLEd、HSGen、HBuild、HLStats 、HParse
模型训练及优化工具
HERest、HInit、HRest、HHEd、HCompV
识别工具
HVite
性能评估工具
HResults、HRec
二 搭建连续语音识别系统
数据准备
定义语法
$word=a|ai|an|ang|ao|ba|bai|ban|bang|
……|silence;
( SENT-START <$word> SENT-END)
建立声学模型
b
p
m
f
d
t
n
l
x
zh
ch
sh
z
c
...
最后更新为上下文相关声学模型
z+uo
z-uo
h+ao
h-ao
n+a
n-a
sh+i
sh-i
l+i
sh-ang
y+ou
y-ou
d+e
...
语料库
Sentence
010001:作品一号
Sentence
spell:zuo4 pin3 yi1 hao4
Sentence
010002:那是力争上游的一种树
Sentence
spell:na4 shi4 li4 zheng1 shang4 you2 de0 yi1 zhong3 shu4
Sentence
010003:笔直的干
Sentence
spell:bi3 zhi2 de0 gan4
Sentence
010004:笔直的枝
Sentence
spell:bi3 zhi2 de0 zhi1
Sentence
010005:它的干呢
Sentence
spell:ta1 de0 gan4 ne0
Sentence
010006:通常是丈把高
Sentence
spell:tong1 chang2 shi4 zhang4 ba3 gao1
Sentence
010007:象是加以人工似的
Sentence
spell:xiang4 shi4 jia1 yi3 ren2 gong1 shi4 de0
Sentence
010008:一丈以内
Sentence
spell:yi1 zhang4 yi3 nei4
Sentence
010009:绝无旁枝
Sentence
spell:jve2 wu2 pang2 zhi1
Sentence
010010:它所有的丫枝呢
Sentence
spell:ta1 suo3 you3 de0 ya1 zhi1 ne0
Sentence
010011:一律向上
Sentence
spell:yi1 lv4 xiang4 shang4
Sentence
010012:而且紧紧靠拢
Sentence
spell:er2 qie2 jin3 jin3 kao4 long3
Sentence
010013:也象是加以人工似的
Sentence
spell:ye3 xiang4 shi4 jia1 yi3 ren2 gong1 shi4 de0
自己录制+网上交换语料 一共有大概3G的语料
数据特征提取
MFCC 利用HCOPY工具
数据训练
为每一个基元建立一个隐马模型
+
上下文无关训练
+
上下文相关训练
+
增加混合度训练
识别率
------------
Overall Results ------
WORD:
%Corr=85.71, Acc=79.15
==================================
相关文章推荐
- HTK搭建大词汇量连续语音识别系统( 五)
- HTK搭建大词汇量连续语音识别系统(三)
- 基于HTK的连续语音识别系统搭建学习笔记(三)
- 基于HTK的连续语音识别系统搭建学习笔记(二)
- HTK搭建大词汇量连续语音识别系统(一)
- HTK搭建大词汇量连续语音识别系统(四)
- 基于HTK的连续语音识别系统搭建学习笔记(四)
- 基于HTK的连续语音识别系统搭建学习笔记(一)
- 基于HTK的连续语音识别系统搭建学习笔记(一)
- 基于HTK的连续语音识别系统搭建学习笔记(四)
- HTK搭建大词汇量连续语音识别系统(二)
- 基于HTK的连续语音识别系统搭建学习笔记(三)
- 基于HTK的连续语音识别系统搭建学习笔记(二)
- (转)Android QQ空间(Apad)项目总结(三)---应用UI框架的搭建!!!
- javaweb学习总结十七(web应用组织结构、web.xml作用以及配置虚拟主机搭建网站)
- 学习android annotations环境搭建及应用总结集锦
- Android QQ空间(Apad)项目总结(三)---应用UI框架的搭建!!!
- 认识django1.6(1)---官方环境搭建及poll应用练习过程总结
- Android QQ空间(Apad)项目总结(三)---应用UI框架的搭建!!!
- Android QQ空间(Apad)项目总结---应用UI框架的搭建