您的位置：首页 > 其它

SRILM的使用方法

2016-03-02 16:20 387 查看

1、从语料库中生成n-gram计数文件：

ngram-count -text train.txt -order 3
-write
train.txt.count

-text指向输入文件

-order指向生成几元的n-gram,即n

-write指向输出文件

2、从上一步生成的计数文件中训练语言模型：

ngram-count
-read
train.txt.count -order 3 -lm LM -interpolate -kndiscount

-read指向输入文件，为上一步的输出文件

-order与上同

-lm指向训练好的语言模型输出文件

最后两个参数为所采用的平滑方法，-interpolate为插值平滑，-kndiscount为
modified　Kneser-Ney 打折法，这两个是联合使用的

3、利用上一步生成的语言模型计算测试集的困惑度：

ngram
-ppl test.txt -order 3 -lm LM >　result

-ppl为对测试集句子进行评分(logP(T)，其中P(T)为所有句子的概率乘积）和计算测试集困惑度的参数

result为输出结果文件

其他参数同上。

如果想要每条句子单独打分，则使用以下命令：

ngram
-ppl test.txt -order 3 -lm LM -debug 1>　result

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航