您的位置:首页 > 其它

基于CRF工具的机器学习方法命名实体识别的过

2014-10-10 11:49 295 查看
[转自百度文库]

基于CRF工具的机器学习方法命名实体识别的过程

|

浏览:226

|

更新:2014-04-11 09:32

这里只讲基本过程,不涉及具体实现,我也是初学者,想给其他初学者一些帮助,如有不对,请多包涵

方法/步骤

语料的收集整理。部分专业有完整的语料库(包括训练语料和测试语料,这些语料不需要再进行人工标注)。如果没有,个人就要根据专业需求上网上用工具抓取,下载,预处理(对中文语料需要进行分词处理和词性标注预处理),同时要对训练预料进行人工标注,很浪费时间。个人建议初学者直接在能找到的专业语料库上做实验。

根据专业需求选取要抽取的特征,制定特征模板。这个过程参考专业领域的论文,一般好的特征别人都提到过。选取特征之后这里要跑程序,将语料格式根据选取的特征转化为CRF模型所要求的语料格式(这个程序一般要自己写,因为特征不一样)。

语料格式整理好之后,用CRF进行训练。配置crf就不说了,训练和测试是在DOS环境下进行的。使用crf工具进行训练:命令:crf_learn template train model (template是训练模板 train 训练语料model训练模型)

使用crf工具进行测试:命令:crf_test model test > test.a(model是训练模型test 是测试语料test.a是测试结果)这里只是一个例子说明过程,具体使用方法百度CRF的具体用法。

4

这个测试结果不能直接进行评价,要先测试结果转化为可以评价的格式(这里也是需要跑程序)。转化后评测。目前我知道的是在UNIX系统下评测,有UNIX服务器的最好,用 FlashFXP软件登陆服务器,用putty软件进行评测。putty评测命令:perl alt_eval.perl test.e > test-1(test.e是可以被评测的经过CRF模型测试过的测试语料格式,是经过my Eclipse转化而来。test-1是存放评测结果的文件,如果不定义,结果直接显示在控制台)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: