您的位置：首页 > 数据库

TIMIT数据库（二）：文件目录及结构

2016-09-03 22:07 639 查看

一、目录结构

目录组织形式如下：

/<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>

在这里：

语料库：timit

用法：train | test

方言种类：dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8

性别：m | f

说话者ID：<说话者缩写><0-9任意数字>

句子ID：<文本类型><句子编号>，其中，文本类型：sa | si | sx

文件类型：wav | txt | wrd | phn

举例：

(1) /timit/train/dr1/fcjf0/sa1.wav

(2) /timit/test/df5/mbpm0/sx407.phn

二、文件类型

TIMIT语料库包括一些与话语句子相关的文件，除了语音波形文件(.wav)外，还包括对应的句子内容(.txt)，经过时间对齐(time-aligned)的单词内容(.wrd)，经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。这些文件的格式如下：

<采样起始点> <采样结束点> <文本内容>

… … …

… … …

… … …

<采样起始点> <采样结束点> <文本内容>

在这里：

采样起始点：语音段的开始位置（整数）。对于每一个文件，第一个起始位置总是0。

采样结束点：语音段的结束位置（整数）。由于翻译方法(transcription

method)的使用，最后一个采样结束位置的值可能比对应的.wav文件。

文本内容：<完整句子> | <单词标签> | <音素标签>

举例：（/timit/test/dr5/fnlp0/sa1.wav）：

.txt:

0 61748 She had your dark suit in greasy wash water all year.

.wrd:

7470 11362 she

11362 16000 had

15420 17503 your

17503 23360 dark

23360 28360 suit

28360 30960 in

30960 36971 greasy

36971 42290 wash

43120 47480 water

49021 52184 all

52184 58840 year

.phn:(开始和结束的静音区以h#标记，展示部分内容)

0 7470 h#

7470 9840 sh

9840 11362 iy

11362 12908 hv

12908 14760 ae

14760 15420 dcl

15420 16000 jh

16000 17503 axr

17503 18540 dcl

18540 18950 d

18950 21053 aa

21053 22200 r

22200 22740 kcl

22740 23360 k

参考文献：

1. Documentation for TIMIT

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： TIMIT 语音识别数据集 ASR 文件结构

相关文章推荐

新的分享

章节导航