【学习笔记】计算听觉场景分析简介
2017-12-04 22:18
302 查看
今天看完了一篇年代比较久远的科普性文章《计算听觉场景分析介绍》,虽然很多地方很抽象还是不怎么理解吧,不过不管怎么说对这个研究课题也是有了一点初步的印象,还是应该跑来写下一点总结的。
这篇文章介绍了CASA(计算听觉场景分析)的概念,理论依据,声音的归类线索,以及CASA系统所依赖的两种主要结构:数据驱动和图式驱动,将两者做了比较并提出了观点:信息双向互流是未来CASA研究的主要模式。
简单说来,CASA 就是声源分离。Cherry提出的“鸡尾酒效应”,我在吴恩达的Coursera上的《机器学习》课程中听过,就是人能从复杂的混合声音中有选择的跟踪某一特定的声音。To be formally,CASA就是利用计算机技术,让计算机模仿人类对听觉信号的处理过程进行建模,从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。注意到这里是要求计算机在处理过程上和人类是相同或相似的,而不是像已有的计算机语音识别系统那样,片面的利用数字信号处理的方式,基于HMM模型的主要框架进行处理。
声源有两大性质,作为CASA分析的理论依据。一个是独立性,即各个不同的声源间,他们的物理特性是互相独立的,一个声源的某些特性变化不影响其他声源的特性。这个很好理解,其实就是物理中的波的独立性原理嘛,光也是一样,所以才会有干涉现象,同相加强,反相抵消。另外一个是连续性,若一个声源的某个特性发生突变,那么它的至少一个其他特性仍然保持一定连续性,即不发生突变,若所有特性同时突变,必然是两个声源。
目前CASA系统有两种主要的模型,一个是数据驱动型,指的是信息从低级到高级的单向流动,符合声音从进入我们的耳朵到被大脑处理的整个过程;另外一种是图式驱动模型,这个是信息双向流动的,有点类似于前者只能是被动接受信息然后处理,而后者不是机械的接受,可以进行反馈,并且参与预测未来的声音,是一个可以上下交互的系统这个意思。而研究表明,图式模型将是未来的趋势。
另外再提一点声音的归类线索,到底依据什么区分声音呢?盗一张图~
蛮细致而复杂的,跟头盖骨和耳廓什么的都有关系。个人认为,利用HMM模型做声音识别显然不需要考虑这么多复杂的因素,但凭声音再怎么戏精,差别可以体现在再多的方面,HMM面临的处理对象都是现成的声音,是隐藏了这些“戏”的一个结果,而我们的目的,是建立一个智能的、能够和声音“彪戏”的系统,你怎么演,我能看懂,并且能配合你演,时不时的我还能预测一下你接下来怎么演,这样就高级了对不对。当然,我现在的水平只能理解到这了,“演技”方面的东西,我暂时还不懂,有待继续学习。欢迎来讨论,或者指出我理解不对的地方,共同进步!
这篇文章介绍了CASA(计算听觉场景分析)的概念,理论依据,声音的归类线索,以及CASA系统所依赖的两种主要结构:数据驱动和图式驱动,将两者做了比较并提出了观点:信息双向互流是未来CASA研究的主要模式。
简单说来,CASA 就是声源分离。Cherry提出的“鸡尾酒效应”,我在吴恩达的Coursera上的《机器学习》课程中听过,就是人能从复杂的混合声音中有选择的跟踪某一特定的声音。To be formally,CASA就是利用计算机技术,让计算机模仿人类对听觉信号的处理过程进行建模,从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。注意到这里是要求计算机在处理过程上和人类是相同或相似的,而不是像已有的计算机语音识别系统那样,片面的利用数字信号处理的方式,基于HMM模型的主要框架进行处理。
声源有两大性质,作为CASA分析的理论依据。一个是独立性,即各个不同的声源间,他们的物理特性是互相独立的,一个声源的某些特性变化不影响其他声源的特性。这个很好理解,其实就是物理中的波的独立性原理嘛,光也是一样,所以才会有干涉现象,同相加强,反相抵消。另外一个是连续性,若一个声源的某个特性发生突变,那么它的至少一个其他特性仍然保持一定连续性,即不发生突变,若所有特性同时突变,必然是两个声源。
目前CASA系统有两种主要的模型,一个是数据驱动型,指的是信息从低级到高级的单向流动,符合声音从进入我们的耳朵到被大脑处理的整个过程;另外一种是图式驱动模型,这个是信息双向流动的,有点类似于前者只能是被动接受信息然后处理,而后者不是机械的接受,可以进行反馈,并且参与预测未来的声音,是一个可以上下交互的系统这个意思。而研究表明,图式模型将是未来的趋势。
另外再提一点声音的归类线索,到底依据什么区分声音呢?盗一张图~
蛮细致而复杂的,跟头盖骨和耳廓什么的都有关系。个人认为,利用HMM模型做声音识别显然不需要考虑这么多复杂的因素,但凭声音再怎么戏精,差别可以体现在再多的方面,HMM面临的处理对象都是现成的声音,是隐藏了这些“戏”的一个结果,而我们的目的,是建立一个智能的、能够和声音“彪戏”的系统,你怎么演,我能看懂,并且能配合你演,时不时的我还能预测一下你接下来怎么演,这样就高级了对不对。当然,我现在的水平只能理解到这了,“演技”方面的东西,我暂时还不懂,有待继续学习。欢迎来讨论,或者指出我理解不对的地方,共同进步!
相关文章推荐
- 计算广告学习笔记2.2 合约广告系统-合约广告简介
- 计算广告学习笔记1.8 广告的基础知识-ROI 分析
- Cocos2d-x学习笔记(八)场景切换原理分析
- openGL学习笔记3(三维场景变换简介)
- MATLAB学习笔记(六)——MATLAB数据分析与多项式计算
- 云计算学习笔记003---Hadoop简介,hadoop实现原理,NoSQL介绍...与传统关系型数据库对应关系,云计算面临的挑战
- 【数据结构与算法学习笔记】PART1:算法分析(计算,计算模型,大O记号,算法分析,迭代与递归,动态控制)
- 云计算学习笔记---Hadoop简介,hadoop实现原理,NoSQL介绍...与传统关系型数据库对应关系,云计算面临的挑战
- 云计算学习笔记004---hadoop的简介,以及安装,用命令实现对hdfs系统进行文件的上传下载
- Kafka学习笔记——Kafka简介与使用场景介绍
- 云计算学习笔记---Hadoop简介,hadoop实现原理,NoSQL介绍...与传统关系型数据库对应关系,云计算面临的挑战
- pspice学习笔记(7)--模拟电路分析计算基本过程
- Java并发28:ThreadLocal学习笔记-简介、基本方法及应用场景
- openerp学习笔记 统计、分析、报表(过滤条件向导、分组报表、图形分析、比率计算、追加视图排序)
- 计算广告学习笔记2.2 合约广告系统-合约广告简介
- 学习笔记 --- LINUX 驱动调试之根据栈信息来分析
- 线性判别分析(Linear Discriminant Analysis, LDA) 学习笔记 + matlab实现
- Cocos2d-x 3.x学习笔记:猩先生带你打飞机(二)素材准备与游戏菜单场景
- .NET深入学习笔记(2):C#中判断空字符串的4种方法性能比较与分析