您的位置:首页 > 数据库

TIMIT数据库(一):介绍

2016-09-03 10:51 465 查看
  数据是大数据时代互联网巨头们傲视群雄的秘密武器。当我们想要接触一个数据驱动型的新领域(如语音识别)时,往往囿于没有足够成熟的数据做实验而举步维艰。幸运的是,有很多机构将他们的成熟的数据公开出来,供我们学习、研究,TIMIT数据库就是其中之一。

  TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。

  在给定的10个句子,包括:

2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;

5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。

3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。



  TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%),但一般只用到SX和SI的句子,也就是说训练集包括由462个人所讲的3696个句子,全部测试集(complete test set)包括由168个人所讲的1344个句子,核心测试集(Core test)包括由24个所讲的192个句子,训练集和测试集没有重合。具体如下:



  TIMIT的原始录音是基于61个音素的,如下所示:



  由于在实际中61个音素考虑的情况太多,因而在训练时有些研究者整合为48个音素,当评估模型时,李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。

  下面列出近年来在TIMIT数据库上进行语音识别实验的研究成果,有兴趣可以查看相关论文。





  TIMIT语料库多年来已经成为语音识别社区的一个标准数据库,在今天仍被广为使用。其原因主要有两个方面:

数据集中的每一个句子都在音素级别上进行了手动标记,同时提供了说话人的编号,性别,方言种类等多种信息;

数据集相对来说比较小,可以在较短的时间内完成整个实验;同时又足以展现系统的性能。

下一篇: TIMIT数据库(二):文件目录及结构

参考文献:

Lopes, Carla, and Fernando Perdigao. “Phone recognition on the TIMIT database.” Speech Technologies/Book 1 (2011): 285-302.

Lee, K-F., and H-W. Hon. “Speaker-independent phone recognition using hidden Markov models.” IEEE Transactions on Acoustics, Speech, and Signal Processing 37.11 (1989): 1641-1648.

Documentation for TIMIT
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息