IKAnalyzer使用停用词词典进行分词
2016-02-28 10:56
495 查看
@Test // 測试分词的效果,以及停用词典是否起作用 public void test() throws IOException { String text = "老爹我们都爱您。"; Configuration configuration = DefaultConfig.getInstance(); configuration.setUseSmart(true); IKSegmenter ik = new IKSegmenter(new StringReader(text), configuration); Lexeme lexeme = null; while ((lexeme = ik.next()) != null) { System.out.println(lexeme.getLexemeText()); } }
第二个样例
import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.StringReader; import javax.imageio.stream.FileImageInputStream; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.core.IKSegmenter; import org.wltea.analyzer.core.Lexeme; import org.wltea.analyzer.lucene.IKAnalyzer; public class TestStopWords { public static void main(String[] args) throws IOException { String keyWords = "2012年那个欧洲杯四强赛"; InputStreamReader isr = new InputStreamReader(new FileInputStream(new File("data/stopword.txt"))); IKSegmenter ikSegmenter = new IKSegmenter(isr, true); Lexeme lexeme = null; while((lexeme=ikSegmenter.next())!= null){ System.out.println(lexeme.getLexemeText()); } } }
程序的执行结果是:
载入扩展停止词典:stopword.dic 载入扩展停止词典:chinese_stopwords.dic 老爹 都爱
IKAnalyzer.cfg.xml的配置例如以下:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户能够在这里配置自己的扩展字典 <entry key="ext_dict">ext.dic;</entry>假设有多个扩展词典。那么以分号分隔就可以,如以下的两个扩展停止词字典 --> <!--用户能够在这里配置自己的扩展停止词字典 --> <entry key="ext_stopwords">stopword.dic;chinese_stopwords.dic</entry> </properties>
注意点:
1、停用词词典必须是UTF-8编码。
2、这里非常多跟我一样的新手没办法成功的原因就是被无bom的UTF-8格式给折磨的,IK作者自己也这样说了。
3、假设你不知道啥叫无BOM,也不确定自己的文件是不是UTF-8无bom,那么请在第一行使用回车换行,从第二行開始加入停止词。
4、该配置文件以及停用词词典均存放在src文件夹以下就可以。
相关文章推荐
- 异步机制
- The 4th Zhejiang Provincial Collegiate Programming Contest
- 页面跳转时,统计数据丢失问题探讨
- android 的主题theme
- linux下静态库编译使用复杂版
- oracle 11g归档日志研究_2
- 【UVa】146 – ID Codes
- gnuplot中画图技巧
- 多线程实现原理
- Android之Monkey全参数(包含隐藏参数)
- html form表单提交后不刷新不跳转的实现方法------巧妙地用iframe
- 基于libsvm的中文文本分类原型
- Win7系统32位Oracle11g客户端安装详述
- POJ 1129 Channel Allocation(DFS + 四色定理)
- DLL和LIB的一些知识点(网上搜集)
- MATLAB的crack安装小曲
- 【USACO 5.4.1】Canada Tour
- 【转】基于内容可变长度分块(CDC)
- 【半年总结】——技术之外
- java 位运算符