Java开源中文分词类库
2014-05-21 11:14
246 查看
IKAnalyzer
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
paoding
Paoding's Knives中文分词具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒可准确分词100万汉字。采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析。
mmseg4j
mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。官方说:词语的正确识别率达到了98.41%。mmseg4j已经实现了这两种分词算法。
imdict
imdict-chinese-analyzer是imdict智能词典的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model,HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。
ictclas4j
ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。
smallseg
smallseg -- 开源的,基于DFA的轻量级的中文分词工具包 特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。转载自:http://www.open-open.com/74.htm
相关文章推荐
- 简繁体中文互换的Java开源类库
- 搜索引擎之中文分词实现(java版)
- ShootSearch 中文分词组件(c#开源) 1.0 bate 060830
- CRF中文分词开源版发布啦
- Nutch开源搜索引擎与Paoding中文分词用plugin方式集成[转]
- 基于HTTP协议的开源中文分词系统:HTTPCWS 1.0.0
- 小叮咚 中文分词 发布 java 版本 , c# 版本 , c++ 版本
- 常见中文分词开源项目
- JAVA 开源类库 绘制统计图 JFreeChart
- JAVA 开源类库 绘制统计图 JFreeChart
- 4款开源的中文分词系统
- 海量的中文分词组件(HLSSplit.dll).在java下调用
- 搜索引擎之中文分词实现(java版)
- 中文分词源代码 - java
- CRF中文分词开源版发布啦
- ShootSearch 中文分词组件(c#开源)
- 中文分词系统之-导入文本文件类词库建立哈希表索引-JAVA源码
- 搜索引擎之中文分词实现(java版)
- 一个开源的python中文分词程序。
- 搜索引擎中文开源分词系统---名字