【毕业设计day05_4】词性标注对象写出_思路
2015-03-07 13:24
387 查看
词性标注对象写出_思路
获取词语的标注信息,并更新词语编号信息1. 获取语言一的标注信息
a) 读入对象temp,加载临时文件。加载语言一的词语编号:
E:\Workspaces\extractLexicon1119\workfiles\langOneWordID.dic
b) 读入文件langOnePOS,加载语言一语料库文档的标注信息,utf-8编码:
E:\Workspaces\extractLexicon1119\workfiles\corpus\lang1-utf8.pos
c) 获取标注信息,以文档为单位,存至字符串数组langOnePOSOfDoc:
d) 删除过短(文本少于30行)的文档,未删除的标注信息保存至langOnePosOfDocToSave:ArrayList
e) 保存语料库中的文档数目: lang1- numOfLangOneDocs
f) 获取所有的词语信息
g) 更新编号
h) 将当前文档的信息添加到整个对象中去
.dic
读入到Object : temp --> 转成(word, id)HashMap<String, Integer> : langOneWordID;
.pos
b、读入到String
c、 用XXXYYYZZZ\tN[N|P]\tXXXYYYZZZ\r\n\\.\tSENT\t\\.\r\n分割 成String []: langOnePOSOfDoc
d、删短,留长ArrayList<String>:langOnePosOfDocToSave --> f、取标注信息String : posForCurrentDoc --> 按行分割成String []: wordAndPos --> 遍历字串数组,按tab分割成String []: parts --> parts长为3时,将parts[2]加到词典中所有单词HashSet<String>: allLangOneWords中
e、parts为3,非空行数(int : countOfLines)加一,同时,以小写字母保存单词parts[2]:langOneWordID调用containsKey方法,get获取对应currentWordID,不包含该单词,将其和(currentWordID=-1)一起添加到langOneWordID中 --> 标准信息posInfoOfCurrentDoc保存到posOfAllLangOneDocs:posInfoOfCurrentDoc[index][0](pos)和posInfoOfCurrentDoc[index][1] (posID)
所有的标注信息:
1. [X][0] 表示词语 ID, [X][1] 表示标注信息;
2. int : posInfoOfCurrentDoc[index][0]--pos ( parts[1]) 为标注信息, noun.=1 (NN/NP、NOM), verb.=2 (VB、VER), adj.=3 (JJ、ADJ), adv.=4 (RB、ADV), SENT =5 (SENT、SENT), other=-1 (未知、<unknown>) , String单词对应的id号;
3. int : posInfoOfCurrentDoc[index][1] -- posID (1,2,3,4,5,-1)
corpus --> lang-all --> <DOC><...><TEXT></TEXT></DOC> --> StringBuilder -->
parts[1]=pos; parts[2]=word; parts[3] parts[4] parts[5]
某单词信息:编号id,单词本身word, 词性pos
a) 单词信息 HashSet<String>:allLangOneWords(单词)
b) 词语的编号信息 HashMap<String, Integer> :langOneWordID(单词;id号)
c) 词语的标注信息 ArrayList<int[][]>:posOfAllLangOneDocs (二维数组:index行,0列:单词的id号; index行,1列:posID号)
2. 获取语言二的标注信息
3. 写对象,保存标注信息(语言x单词对象,语言x的ID信息)
a) E:\Workspaces\extractLexicon1119\workfiles\allLangOneWords
b) E:\Workspaces\extractLexicon1119\workfiles\langOneWordID
4. 写对象,保存语料库信息
a) ArrayList<int[][]>: langOnePos
b) E:\Workspaces\extractLexicon1119\workfiles\posOfLangOneDocs
相关文章推荐
- 【毕业设计day05_3】词性标注_思路
- 【毕业设计day05_1】建立词典_思路
- 【毕业设计day05_2】语料库预处理_思路
- NLTK的安装/对象/词库/分词/词性标注/分块
- 掌握感性思路,轻松写出高质量的SEO原创文章
- 写一点应用关于 Lucene.Net,snowball的重新组装(一)在Lucene.Net中加入词性标注与词根还原功能
- 页面级的业务对象与展现映射封装(一种开发思路与技术实现)
- 词性标注
- 词性标注的python实现-基于平均感知机算法
- 一个.net的系统的AOP设计思路一——NHibernate和界面/对象映射层
- 使用hmm建模实现词性标注实例
- 词性标注
- 将JSON对象带有格式的写出到文件中
- 掌握感性思路,轻松写出高质量的SEO原创文章
- 词性标注POS tagging
- 《驯服烂代码——代码内在质量的改善之道》写作大纲之一:选题思路和读者对象
- 如何写出安全的API接口?接口参数加密签名设计思路
- 字符粒度表示用于词性标注
- HMM模型用在词性标注、分词
- 基于隐马尔可夫模型的有监督词性标注