paip.中文 分词 ---paoding 3.1 的使用
2013-11-18 15:47
260 查看
paip.中文 分词 ---paoding 3.1 的使用
paoding 3.1 下载: 1
设置字典路径 1
测试代码 1
作者Attilax 艾龙, EMAIL:1466519819@qq.com
来源:attilax的专栏
地址:http://blog.csdn.net/attilax
http://git.oschina.net/zhzhenqin/paoding-analysis.git
原项目见 https://code.google.com/p/paoding/
/paodinProj/dic
public static void main(String[] args) throws IOException {
String text = "我的QQ号码是1466519819";
text="一生当中,真正的朋友只有那么一两个!可以为自己的友情做个加减法!";
Analyzer analyzer = new PaodingAnalyzer();
TokenStream ts = analyzer.tokenStream("text", new StringReader(text));
//添加工具类 注意:以下这些与之前lucene2.x版本不同的地方
CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);
// 循环打印出分词的结果,及分词出现的位置
while (ts.incrementToken()) {
System.out.print(offAtt.toString() + "\t");
使用方法: 主要通过lucene的接口实现, Analyser#tokenStream方法
切词效果: 传统/意义/意义上/上的/几何/几何学/研究/图形/形的/形状/大/大小/等/性质
备注: paoding的切词会漏字(食字),上面的结果就食了 ‘在’ 字;
总会进行最小粒度切分,只要在词库里有的词组,都会出现。如:之前-->前/之前
效果不如ik,Ictclas4j
}
}
paoding 3.1 下载: 1
设置字典路径 1
测试代码 1
作者Attilax 艾龙, EMAIL:1466519819@qq.com
来源:attilax的专栏
地址:http://blog.csdn.net/attilax
paoding 3.1 下载:
Paoding分词器基于Lucene4.xhttp://git.oschina.net/zhzhenqin/paoding-analysis.git
原项目见 https://code.google.com/p/paoding/
设置字典路径
/paodinProj/src/paoding-dic-home.properties 默认不用更改../paodinProj/dic
测试代码
*/public static void main(String[] args) throws IOException {
String text = "我的QQ号码是1466519819";
text="一生当中,真正的朋友只有那么一两个!可以为自己的友情做个加减法!";
Analyzer analyzer = new PaodingAnalyzer();
TokenStream ts = analyzer.tokenStream("text", new StringReader(text));
//添加工具类 注意:以下这些与之前lucene2.x版本不同的地方
CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);
// 循环打印出分词的结果,及分词出现的位置
while (ts.incrementToken()) {
System.out.print(offAtt.toString() + "\t");
结论:
实现类: PaodingAnalyzer使用方法: 主要通过lucene的接口实现, Analyser#tokenStream方法
切词效果: 传统/意义/意义上/上的/几何/几何学/研究/图形/形的/形状/大/大小/等/性质
备注: paoding的切词会漏字(食字),上面的结果就食了 ‘在’ 字;
总会进行最小粒度切分,只要在词库里有的词组,都会出现。如:之前-->前/之前
效果不如ik,Ictclas4j
}
}
相关文章推荐
- paip.中文 分词 ---paoding 3.1 的使用
- Lucene中使用Paoding中文分词
- Lucene中使用Paoding中文分词
- Lucene中使用Paoding中文分词
- Lucene中使用Paoding中文分词
- [导入]Paoding中文分词器使用总结(Lucene)
- C#+uploadify3.1上传示例,可使用中文按钮
- [python] 使用Jieba工具中文分词及文本聚类概念
- 使用IKAnalyzer进行中文分词
- 使用Discuz关键词服务器实现PHP中文分词
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- ANSJ中文分词使用方法
- 使用jieba分词对中文文档进行分词|停用词去重
- 关于使用中文分词工具ICTCLAS2013 Java版本乱码的问题
- Solr5.5.1 IK中文分词配置与使用
- 使用IK Analyzer实现中文分词(JAVA)
- Nutch开源搜索引擎与Paoding中文分词用plugin方式集成[转]
- IK 中文分词的配置和使用
- ElasticSearch使用IK中文分词---安装步骤记录