语音识别:原理
2013-04-18 14:37
92 查看
从研究方向上看有人从发音原理入手,有人从听觉原理入手,还有人从声音特征入手。新闻联播主持人发出的声音通过电视系统广播能让上亿人理解这说明电子系统采集的声音数据已经包含了足够让人理解的信息所以把声音数据作为研究对象完全可行。我选择从声音特征入手。
咱们都知道声音就是在空气中传播的纵向机械波。纯机械波有相位,强度,频率三种特征,那种特征最关键呢?
在屋子里看电视的人无论距离电视多远都能听懂电视发出的声音由此我们可以判断相位不是关键特征。因为相位和距离有关,接收距离不同接收到的相位也不同同。
同样在屋子里看电视把声音调大些或者调小些我们都能听懂电视发出的声音由此我们可以判断强度也不是关键特征。
只剩下频率了。频率是不是关键特征呢?答案是肯定的。相关证据大家在后边的实验中会看到。
绝大多数语音识别软件都是如下流程:1 采集声音样本。 2 测量能量分布。3 搜索匹配词组。
第一步:
声卡会帮助我们采集声音样本。通过调用微软DirectSound接口调用即可。
第二步:
现实中的声音是无数单频波组合的产物。有些频率能量大到占到全部能量的100%,有些频率能量小到占全部能量的0%。当然振幅大的频率起着决定作用。如何测量各个频率的能量呢?常见的方法有两种:1 FFT,快速傅里叶变换。2 Wavelet,小波分析。
FFT是老牌信号分析算法现。缺点是测量分辨率受测不准原理限制。
Wavelet是最近十几年才流行起来的算法。优点是分辨率可以灵活调整缺点是原理晦涩难懂。
如果你不搞通讯信建议你还是站在别人的肩膀上用现成开发包吧。晚些时候我会向提供。
第三步:
这里使用最多的是DTW。简单说就是把第二步中得到的能量分布和已有的能量分布样本一个一个对比能量分布越相似这个样本越可靠。DTW资料不少这里不再多说。
咱们都知道声音就是在空气中传播的纵向机械波。纯机械波有相位,强度,频率三种特征,那种特征最关键呢?
在屋子里看电视的人无论距离电视多远都能听懂电视发出的声音由此我们可以判断相位不是关键特征。因为相位和距离有关,接收距离不同接收到的相位也不同同。
同样在屋子里看电视把声音调大些或者调小些我们都能听懂电视发出的声音由此我们可以判断强度也不是关键特征。
只剩下频率了。频率是不是关键特征呢?答案是肯定的。相关证据大家在后边的实验中会看到。
绝大多数语音识别软件都是如下流程:1 采集声音样本。 2 测量能量分布。3 搜索匹配词组。
第一步:
声卡会帮助我们采集声音样本。通过调用微软DirectSound接口调用即可。
第二步:
现实中的声音是无数单频波组合的产物。有些频率能量大到占到全部能量的100%,有些频率能量小到占全部能量的0%。当然振幅大的频率起着决定作用。如何测量各个频率的能量呢?常见的方法有两种:1 FFT,快速傅里叶变换。2 Wavelet,小波分析。
FFT是老牌信号分析算法现。缺点是测量分辨率受测不准原理限制。
Wavelet是最近十几年才流行起来的算法。优点是分辨率可以灵活调整缺点是原理晦涩难懂。
如果你不搞通讯信建议你还是站在别人的肩膀上用现成开发包吧。晚些时候我会向提供。
第三步:
这里使用最多的是DTW。简单说就是把第二步中得到的能量分布和已有的能量分布样本一个一个对比能量分布越相似这个样本越可靠。DTW资料不少这里不再多说。
相关文章推荐
- 语音识别的技术原理
- 科普丨一文看懂语音识别的技术原理
- 语音识别的技术原理是什么
- 语音识别的技术原理是什么?
- 语音识别原理
- 科普丨一文看懂语音识别的技术原理
- Sphinx语音识别学习记录 (二)-自然语言处理原理研究
- Sphinx语音识别学习记录 (二)-自然语言处理原理研究
- 语音识别的技术原理是什么?
- 语音识别的技术原理是什么?
- 基于DTW算法的语音识别原理与实现
- 构造函数和析构函数的原理及在C#中的运用
- C++模板的原理与应用
- 文件锁使用原理及其方法
- 深入理解数据库原理系列(2)---并发控制原理
- Select模型原理
- 企业管理软件开发之九 以数据绑定为基础的控件只读,创建时可写,必须大写,必须小写的原理与实现
- Android大图片裁剪终极解决方案(上:原理分析)
- 利用DHT网络原理制作bt采集蜘蛛
- 《30天自制操作系统》纸娃娃操作系统以及大多数操作系统的加载原理