用srilm生成语言模型
2017-08-07 10:04
1501 查看
SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型,包括最大似然估计及相应的平滑算法;而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块,这也是最早实现的模块,包括两个工 具:ngram-count和ngram,相应的被用来估计语言模型和计算语言模型的困惑度。
-vocab 词典文件,一行代表一个切词,格式如下:
-text 语料库,一行行的数据,行内数据用空格隔开来表示切词,格式如下:
-order 最大的n元模型,3表示统计1元模型(unigram)、2元模型(bigram)、3元模型(trigram)
-write 生成的统计文件,格式如下(ngram count):
-unk 把不在词典里面的次表示为<unk>
-read 读统计文件
-lm 产生的语言模型文件,产生的格式如下:
-kndiscount1 对1元模型进行的折扣平滑的方法,有很多,如good-turing,kneser-ney等
测试数据的格式也是一行代表一个句子,每个句子内部用空格隔开表示切词
1.统计语料库生成n-gram统计文件
ngram-count -vocab segment_dict.txt -text train_data -order 3 -write my.count -unk
-vocab 词典文件,一行代表一个切词,格式如下:
中国 人民 你好
-text 语料库,一行行的数据,行内数据用空格隔开来表示切词,格式如下:
中国 人民 刘德华 歌曲 好 听 吗
-order 最大的n元模型,3表示统计1元模型(unigram)、2元模型(bigram)、3元模型(trigram)
-write 生成的统计文件,格式如下(ngram count):
<s> 2 <s> 中国 1 <s> 中国 人民 1 <s> 刘德华 1 <s> 刘德华 <unk> 1 中国 1 中国 人民 1 中国 人民 </s> 1 人民 1 人民 </s> 1 </s> 2 刘德华 1 刘德华 <unk> 1 刘德华 <unk> <unk> 1 <unk> 4 <unk> <unk> 3 <unk> <unk> <unk> 2 <unk> <unk> </s> 1 <unk> </s> 1
-unk 把不在词典里面的次表示为<unk>
2.生成语言模型
ngram-count -vocab segment_dict.txt -read my.count -order 3 -lm my.lm -kndiscount1 -kndiscount2 -kndiscount3
-read 读统计文件
-lm 产生的语言模型文件,产生的格式如下:
\data\ ngram 1=6 ngram 2=4 ngram 3=0 \1-grams: -0.4771213 </s> -99 <s> -99 -0.7781513 中国 -99 -0.7781513 人民 -99 -0.7781512 你好 -0.7781513 刘德华 \2-grams: -0.30103 <s> 中国 -0.30103 <s> 刘德华 0 中国 人民 0 人民 </s> \3-grams: \end\
-kndiscount1 对1元模型进行的折扣平滑的方法,有很多,如good-turing,kneser-ney等
3.用语言模型计算测试数据的困惑度
ngram -ppl test.txt -order 3 -lm my.lm
测试数据的格式也是一行代表一个句子,每个句子内部用空格隔开表示切词
file test.txt: 2 sentences, 5 words, 0 OOVs 4 zeroprobs, logprob= -0.7781513 ppl= 1.817121 ppl1= 6.000001
相关文章推荐
- 用 RNN 训练语言模型生成文本
- 语言模型训练工具SRILM详解
- 语言模型训练工具SRILM详解
- 语言模型训练工具SRILM
- SRILM语言模型工具
- 语言模型训练工具SRILM
- 语言模型训练工具:SRILM的使用
- SRILM使用之训练无平滑语言模型
- SRILM使用之用平滑Katz回退训练语言模型
- 语言模型srilm基本用法
- CMUsphinx wiki上的开发帮助--- 生成语言模型
- 使用SRILM为大文件构建语言模型
- SRILM---语言模型训练工具SRILM详解
- SRILM 语言模型训练工具
- 语言模型srilm(一) 基本用法
- 利用开源工具搭一套汉英翻译系统(三):语言模型工具SRILM
- 【复杂网络系列】图模型语言(graph model language)gml格式文件生成代码
- 语言模型srilm(二) prune剪枝
- 语言模型srilm(三) 折扣平滑算法
- 语言模型-SRILM(1) 安装