您的位置:首页 > 其它

斯坦福 stanford coreNLP 中的PCFG parser-lexparser

2017-07-13 18:05 531 查看

FPEG模型训练

Java -Xmx7g  edu.stanford.nlp.parser.lexparser.LexicalizedParser   -tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams  -train data/source/dataCTBZh//bracketed  -saveToSerializedFile  data/models/pcfgZH.ser.gz

其中:
 

-tLPP,用来选定训练树库的语言,中文选择edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams

 

说明:

        输入的语料共1677971个句子,去重后词为67811

CoreNLP FPEG模型测试和效果

public static void main(String[] args) {

LexicalizedParser lp;
boolean newFlag= true;
if (newFlag){
String parserModel = "data/models/pcfgZH.ser.gz";
lp = LexicalizedParser.loadModel(parserModel);
}
else {
String basedir = "D:/WorkSpaceIntelliJ/coreNLP/stanford-chinese-corenlp-2016-10-31-models/";
String parserModel = "edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz";
lp = LexicalizedParser.loadModel(basedir+parserModel);
}
String line = "统计还 显示 , 台商 投资 祖国 大陆 正 趋向 大型化 。";
String line2="俄国希望 伊朗 没有 制造 核武器 计划 。";
Tree parser = lp.parse(line);
parser.pennPrint();

//dependency
ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(parser);
Collection<TypedDependency> tdl =gs.typedDependenciesCCprocessed();
System.out.println(tdl.toString());

}


输出结果为:

 

(ROOT
(IP
(NP (NN 统计))
(VP
(ADVP (AD 还))
(VP (VV 显示) (PU ,)
(IP
(IP
(NP (NN 台商))
(VP (VV 投资)
(NP (NN 祖国) (NN 大陆))))
(VP
(ADVP (AD 正))
(VP (VV 趋向)
(NP (NN 大型化)))))))
(PU 。)))
[nsubj(显示-3, 统计-1), xsubj(趋向-10, 统计-1),advmod(显示-3, 还-2), root(ROOT-0, 显示-3), nsubj(投资-6, 台商-5), dep(趋向-10, 投资-6), nn(大陆-8, 祖国-7), dobj(投资-6, 大陆-8), advmod(趋向-10, 正-9), ccomp(显示-3, 趋向-10), dobj(趋向-10, 大型化-11)]


 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息