中文分词笔记之三:示例代码及测试结果
2015-01-31 13:46
330 查看
示例代码:
示例结果:
text:end start:8 end:9 cost:0.0
data = 天:WordId:Freq[28:502][19:84]
data = 天下:WordId:Freq[25:0][11:0][19:21]
data = 下:WordId:Freq[20:1][11:951][19:0][29:0][28:16][40:332]
data = 的:WordId:Freq[36:54477]
data = 事:WordId:Freq[19:233][42:1][40:0]
data = 事情:WordId:Freq[19:95]
data = 情:WordId:Freq[20:7][19:101]
data = 天:WordId:Freq[28:502][19:84]
data = 天下:WordId:Freq[25:0][11:0][19:21]
data = 下:WordId:Freq[20:1][11:951][19:0][29:0][28:16][40:332]
data = 管:WordId:Freq[21:0][7:0][20:5][40:87][28:0][27:0][42:0]
天下 的 事情 天下 管
/** *g为邻接表 *i为当前节点 */ Iterator<CnToken> it1 = g.getPrev(i);//得到一级前驱词集合 double maxProb = Double.NEGATIVE_INFINITY; int maxPrev1 = -1; int maxPrev2 = -1; while(it1.hasNext()) { CnToken t1 = it1.next(); Iterator<CnToken> it2 = g.getPrev(t1.start);//得到一级前驱词对应的二级前驱词集合 while(it2.hasNext()){ CnToken t2 = it1.next(); int bigramFreq=getBigramFreq(t1,t2);//从二元词典找二元频率 double biProb = lambda1*t1.freq + lambda2*(bigramFreq/t2.freq);//平滑后的二元概率 double nodeProb = prob[t2.start]+(Math.log(biProb));//二元模型 if (nodeProb > maxProb)//概率最大的算作最佳前趋 { maxPrev1 = t1.start; maxPrev2 = t2.start; maxProb = nodeProb; } } } prob[i] = maxProb;
示例结果:
text:end start:8 end:9 cost:0.0
data = 天:WordId:Freq[28:502][19:84]
data = 天下:WordId:Freq[25:0][11:0][19:21]
data = 下:WordId:Freq[20:1][11:951][19:0][29:0][28:16][40:332]
data = 的:WordId:Freq[36:54477]
data = 事:WordId:Freq[19:233][42:1][40:0]
data = 事情:WordId:Freq[19:95]
data = 情:WordId:Freq[20:7][19:101]
data = 天:WordId:Freq[28:502][19:84]
data = 天下:WordId:Freq[25:0][11:0][19:21]
data = 下:WordId:Freq[20:1][11:951][19:0][29:0][28:16][40:332]
data = 管:WordId:Freq[21:0][7:0][20:5][40:87][28:0][27:0][42:0]
天下 的 事情 天下 管
相关文章推荐
- lucene3.0+版本中文分词测试+搜索结果+创建索引测试
- lucene3.0+版本中文分词测试+搜索结果+创建索引测试
- AJAX 学习笔记[二] 我编写的AJAX 测试代码示例
- lucene3.0+版本中文分词测试+搜索结果+创建索引测试
- 科大讯飞语音转文字以及中文分词的Java测试代码
- 科大讯飞语音转文字以及中文分词的Java测试代码
- 如何将查询结果显示在选择屏幕上的代码示例
- 在linux下写的代码,用的是utf-8,结果拿到XP下运行的时候,所有的中文都成乱码
- C# 一个简单分词程序的思路和代码(六) 源代码 ,测试程序,词库下载地址
- 系统多种资源文件代码示例(例如一个系统同时具有中文简体,中文繁体,英文,日文等不同资源文件)(示例代码下载)
- apache下ab网站压力测试命令的参数、输出结果的中文注解
- 用泛型技术对业务管理Bean抽象_实现_测试(代码示例)
- 在linux下写的代码,用的是utf-8,结果拿到XP下运行的时候,所有的中文都成乱码
- 中科院中文分词系统ICTCLAS之NShortPath代码的详细分析
- J2ME KXML 解析中文xml代码示例
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- apache下ab网站压力测试命令的参数、输出结果的中文注解
- jsp中文显示乱码代码示例
- 中科院中文分词系统ICTCLAS之NShortPath代码的详细分析
- Lucene加中文分词paoding调研结果