您的位置：首页 > 数据库

TIMIT数据库（一）：介绍

2016-09-03 10:51 465 查看

数据是大数据时代互联网巨头们傲视群雄的秘密武器。当我们想要接触一个数据驱动型的新领域（如语音识别）时，往往囿于没有足够成熟的数据做实验而举步维艰。幸运的是，有很多机构将他们的成熟的数据公开出来，供我们学习、研究，TIMIT数据库就是其中之一。

TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别(phone level)上进行了手动分割，标记。70%的说话人是男性；大多数说话者是成年白人。

在给定的10个句子，包括：

2个方言句子(SA, dialect sentences)，对于每个人这2个方言句子都是相同的；

5个音素紧凑句子(SX, phonetically compact sentences)，这5个是从MIT所给的450个因素分布平衡的句子中选出，目的是为了尽可能的包含所有的音素对。

3个音素发散句子(SI, phonetically diverse sentences)，这3个是由TI从已有的Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的，目的是为了增加句子类型和音素文本的多样性，使之尽可能的包括所有的音位变体(allophonic contexts)。

TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%)，但一般只用到SX和SI的句子，也就是说训练集包括由462个人所讲的3696个句子，全部测试集(complete test set)包括由168个人所讲的1344个句子，核心测试集(Core test)包括由24个所讲的192个句子，训练集和测试集没有重合。具体如下：

TIMIT的原始录音是基于61个音素的，如下所示：

由于在实际中61个音素考虑的情况太多，因而在训练时有些研究者整合为48个音素，当评估模型时，李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。

下面列出近年来在TIMIT数据库上进行语音识别实验的研究成果，有兴趣可以查看相关论文。

TIMIT语料库多年来已经成为语音识别社区的一个标准数据库，在今天仍被广为使用。其原因主要有两个方面：

数据集中的每一个句子都在音素级别上进行了手动标记，同时提供了说话人的编号，性别，方言种类等多种信息；

数据集相对来说比较小，可以在较短的时间内完成整个实验；同时又足以展现系统的性能。

下一篇： TIMIT数据库（二）：文件目录及结构

参考文献：

Lopes, Carla, and Fernando Perdigao. “Phone recognition on the TIMIT database.” Speech Technologies/Book 1 (2011): 285-302.

Lee, K-F., and H-W. Hon. “Speaker-independent phone recognition using hidden Markov models.” IEEE Transactions on Acoustics, Speech, and Signal Processing 37.11 (1989): 1641-1648.

Documentation for TIMIT

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： TIMIT 语音识别数据集 ASR

相关文章推荐

新的分享

章节导航