您的位置：首页 > 理论基础

【学习笔记】计算听觉场景分析简介

2017-12-04 22:18 302 查看

今天看完了一篇年代比较久远的科普性文章《计算听觉场景分析介绍》，虽然很多地方很抽象还是不怎么理解吧，不过不管怎么说对这个研究课题也是有了一点初步的印象，还是应该跑来写下一点总结的。

这篇文章介绍了CASA（计算听觉场景分析）的概念，理论依据，声音的归类线索，以及CASA系统所依赖的两种主要结构：数据驱动和图式驱动，将两者做了比较并提出了观点：信息双向互流是未来CASA研究的主要模式。

简单说来，CASA 就是声源分离。Cherry提出的“鸡尾酒效应”，我在吴恩达的Coursera上的《机器学习》课程中听过，就是人能从复杂的混合声音中有选择的跟踪某一特定的声音。To be formally，CASA就是利用计算机技术，让计算机模仿人类对听觉信号的处理过程进行建模，从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。注意到这里是要求计算机在处理过程上和人类是相同或相似的，而不是像已有的计算机语音识别系统那样，片面的利用数字信号处理的方式，基于HMM模型的主要框架进行处理。

声源有两大性质，作为CASA分析的理论依据。一个是独立性，即各个不同的声源间，他们的物理特性是互相独立的，一个声源的某些特性变化不影响其他声源的特性。这个很好理解，其实就是物理中的波的独立性原理嘛，光也是一样，所以才会有干涉现象，同相加强，反相抵消。另外一个是连续性，若一个声源的某个特性发生突变，那么它的至少一个其他特性仍然保持一定连续性，即不发生突变，若所有特性同时突变，必然是两个声源。

目前CASA系统有两种主要的模型，一个是数据驱动型，指的是信息从低级到高级的单向流动，符合声音从进入我们的耳朵到被大脑处理的整个过程；另外一种是图式驱动模型，这个是信息双向流动的，有点类似于前者只能是被动接受信息然后处理，而后者不是机械的接受，可以进行反馈，并且参与预测未来的声音，是一个可以上下交互的系统这个意思。而研究表明，图式模型将是未来的趋势。

另外再提一点声音的归类线索，到底依据什么区分声音呢？盗一张图～

蛮细致而复杂的，跟头盖骨和耳廓什么的都有关系。个人认为，利用HMM模型做声音识别显然不需要考虑这么多复杂的因素，但凭声音再怎么戏精，差别可以体现在再多的方面，HMM面临的处理对象都是现成的声音，是隐藏了这些“戏”的一个结果，而我们的目的，是建立一个智能的、能够和声音“彪戏”的系统，你怎么演，我能看懂，并且能配合你演，时不时的我还能预测一下你接下来怎么演，这样就高级了对不对。当然，我现在的水平只能理解到这了，“演技”方面的东西，我暂时还不懂，有待继续学习。欢迎来讨论，或者指出我理解不对的地方，共同进步！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 计算机听觉语音识别信号处理

相关文章推荐

新的分享

章节导航