您的位置：首页 > 其它

语音识别：原理

2013-04-18 14:37 92 查看

从研究方向上看有人从发音原理入手，有人从听觉原理入手，还有人从声音特征入手。新闻联播主持人发出的声音通过电视系统广播能让上亿人理解这说明电子系统采集的声音数据已经包含了足够让人理解的信息所以把声音数据作为研究对象完全可行。我选择从声音特征入手。

咱们都知道声音就是在空气中传播的纵向机械波。纯机械波有相位，强度，频率三种特征，那种特征最关键呢？

在屋子里看电视的人无论距离电视多远都能听懂电视发出的声音由此我们可以判断相位不是关键特征。因为相位和距离有关，接收距离不同接收到的相位也不同同。

同样在屋子里看电视把声音调大些或者调小些我们都能听懂电视发出的声音由此我们可以判断强度也不是关键特征。

只剩下频率了。频率是不是关键特征呢？答案是肯定的。相关证据大家在后边的实验中会看到。

绝大多数语音识别软件都是如下流程：1 采集声音样本。 2 测量能量分布。3 搜索匹配词组。

第一步：

声卡会帮助我们采集声音样本。通过调用微软DirectSound接口调用即可。

第二步：

现实中的声音是无数单频波组合的产物。有些频率能量大到占到全部能量的100%，有些频率能量小到占全部能量的0%。当然振幅大的频率起着决定作用。如何测量各个频率的能量呢？常见的方法有两种：1 FFT，快速傅里叶变换。2 Wavelet，小波分析。

FFT是老牌信号分析算法现。缺点是测量分辨率受测不准原理限制。

Wavelet是最近十几年才流行起来的算法。优点是分辨率可以灵活调整缺点是原理晦涩难懂。

如果你不搞通讯信建议你还是站在别人的肩膀上用现成开发包吧。晚些时候我会向提供。

第三步：

这里使用最多的是DTW。简单说就是把第二步中得到的能量分布和已有的能量分布样本一个一个对比能量分布越相似这个样本越可靠。DTW资料不少这里不再多说。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航