SRILM的使用方法
2016-03-02 16:20
387 查看
1、从语料库中生成n-gram计数文件:
ngram-count -text train.txt -order 3
-write
train.txt.count
-text指向输入文件
-order指向生成几元的n-gram,即n
-write指向输出文件
2、从上一步生成的计数文件中训练语言模型:
ngram-count
-read
train.txt.count -order 3 -lm LM -interpolate -kndiscount
-read指向输入文件,为上一步的输出文件
-order与上同
-lm指向训练好的语言模型输出文件
最后两个参数为所采用的平滑方法,-interpolate为插值平滑,-kndiscount为
modified Kneser-Ney 打折法,这两个是联合使用的
3、利用上一步生成的语言模型计算测试集的困惑度:
ngram
-ppl test.txt -order 3 -lm LM > result
-ppl为对测试集句子进行评分(logP(T),其中P(T)为所有句子的概率乘积)和计算测试集困惑度的参数
result为输出结果文件
其他参数同上。
如果想要每条句子单独打分,则使用以下命令:
ngram
-ppl test.txt -order 3 -lm LM -debug 1> result
ngram-count -text train.txt -order 3
-write
train.txt.count
-text指向输入文件
-order指向生成几元的n-gram,即n
-write指向输出文件
2、从上一步生成的计数文件中训练语言模型:
ngram-count
-read
train.txt.count -order 3 -lm LM -interpolate -kndiscount
-read指向输入文件,为上一步的输出文件
-order与上同
-lm指向训练好的语言模型输出文件
最后两个参数为所采用的平滑方法,-interpolate为插值平滑,-kndiscount为
modified Kneser-Ney 打折法,这两个是联合使用的
3、利用上一步生成的语言模型计算测试集的困惑度:
ngram
-ppl test.txt -order 3 -lm LM > result
-ppl为对测试集句子进行评分(logP(T),其中P(T)为所有句子的概率乘积)和计算测试集困惑度的参数
result为输出结果文件
其他参数同上。
如果想要每条句子单独打分,则使用以下命令:
ngram
-ppl test.txt -order 3 -lm LM -debug 1> result
相关文章推荐
- java String.split 传入参数为正则表达式
- web.xml配置文件说明
- yarrAdetroSdetatoRnimuminiMdniF.153
- Sublime Text3 绝对神器(安装、配置)
- Apple Pay支付流程详解
- 浅析android应用增量升级
- 『java.util』 list 接口研究
- 四步轻松实现用Visio画UML类图
- 走在桥上
- 字面量
- UIWebView 与 JS 交互(1):Objective-C 调用 Javascript
- Ubuntu上编译OpenCV出现No rule to make target '/usr/lib/libpng.so' 错误
- Tomcat 7源码解析
- 杂文_语录
- 257. Binary Tree Paths
- redis 系统命令
- SpringMVC与Struts2的比较
- C# excel文件读取
- Memcached
- 使用Ant脚本打包