斯坦福 stanford coreNLP 中的PCFG parser-lexparser
2017-07-13 18:05
531 查看
FPEG模型训练
Java -Xmx7g edu.stanford.nlp.parser.lexparser.LexicalizedParser -tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams -train data/source/dataCTBZh//bracketed -saveToSerializedFile data/models/pcfgZH.ser.gz
其中:
-tLPP,用来选定训练树库的语言,中文选择edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams
说明:
输入的语料共1677971个句子,去重后词为67811
CoreNLP FPEG模型测试和效果
public static void main(String[] args) { LexicalizedParser lp; boolean newFlag= true; if (newFlag){ String parserModel = "data/models/pcfgZH.ser.gz"; lp = LexicalizedParser.loadModel(parserModel); } else { String basedir = "D:/WorkSpaceIntelliJ/coreNLP/stanford-chinese-corenlp-2016-10-31-models/"; String parserModel = "edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz"; lp = LexicalizedParser.loadModel(basedir+parserModel); } String line = "统计还 显示 , 台商 投资 祖国 大陆 正 趋向 大型化 。"; String line2="俄国希望 伊朗 没有 制造 核武器 计划 。"; Tree parser = lp.parse(line); parser.pennPrint(); //dependency ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(parser); Collection<TypedDependency> tdl =gs.typedDependenciesCCprocessed(); System.out.println(tdl.toString()); }
输出结果为:
(ROOT (IP (NP (NN 统计)) (VP (ADVP (AD 还)) (VP (VV 显示) (PU ,) (IP (IP (NP (NN 台商)) (VP (VV 投资) (NP (NN 祖国) (NN 大陆)))) (VP (ADVP (AD 正)) (VP (VV 趋向) (NP (NN 大型化))))))) (PU 。))) [nsubj(显示-3, 统计-1), xsubj(趋向-10, 统计-1),advmod(显示-3, 还-2), root(ROOT-0, 显示-3), nsubj(投资-6, 台商-5), dep(趋向-10, 投资-6), nn(大陆-8, 祖国-7), dobj(投资-6, 大陆-8), advmod(趋向-10, 正-9), ccomp(显示-3, 趋向-10), dobj(趋向-10, 大型化-11)]
相关文章推荐
- Stanford CoreNLP 3.6.0 使用入门
- 用Python+StanfordCoreNLP做中文命名实体分析
- 开源中文分词工具探析(六):Stanford CoreNLP
- Eclipse下使用Stanford CoreNLP的方法
- Stanford CoreNLP遇到的问题
- 中文语料下Stanford CoreNLP开发环境配置和各组件使用例子
- Stanford Corenlp学习笔记——词性标注
- Stanford CoreNLP生成CoNLL数据格式
- 命令行调用StanfordCoreNLP3.8.0中文+JDK1.9版本
- Eclipse下使用Stanford CoreNLP的方法
- Stanford CoreNLP--Part of Speech
- Stanford CoreNLP – Core natural language software
- 如何使用Stanford CoreNlp做中文情感分析
- Stanford CoreNLP在eclipse中运行出现关于SLF4J的ERROR
- Stanford coreNLP 出现 in thread "main" java.lang.OutOfMemoryError: Java heap space
- Stanford CoreNLP – a suite of core NLP tools
- Stanford CoreNLP--Named Entities Recognizer(NER)
- 采用Stanford CoreNLP实现英文单词词形还原
- Eclipse下使用Stanford CoreNLP的方法
- stanford corenlp的TokensRegex