开源中文词法文本分析程序整理
2013-08-23 14:13
239 查看
开源产品 | 发布单位 | 主要功能 |
fudannlp | 复旦自然语言处理 | 1.信息检索: 文本分类 新闻聚类 2.中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别 3.结构化学习: 在线学习 层次分类 聚类 精确推理 |
ik-analyzer | http://code.google.com/p/ik-analyzer/ | 1.采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式; 2.在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位,Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。 3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。 4.采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符 5.优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。 |
jieba | fxsjy | 1. 分词 2. 关键词提取 |
paoding | http://code.google.com/p/paoding/ | 1. 支持Lucene 3.0 2.高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万汉字。 3.采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。 4.能够对未知的词汇进行合理解析 |
ansj中文分词 (ictclas的java实现.) | ansjsun | 1.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 2.内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 3.准确率能达到96%以上 4.目前实现了.中文分词. 中文姓名识别 . 用户自定义词典 可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目. |
ictclas | 北京中科天玑科技有限公司 | 1、内存消耗不到知识库大小的1.5倍。基于该技术,分词速度单机500KB/s,分词精度98.45%,API不超过100KB,种词典数据压缩后不到3M,稳定性更高。 2、支持多线程 3、支持UTF-8 也可让系统自动识别编码。 4、支持简体繁体中文 5、支持Windows7 6、支持大用户词典 |
scws | hightman.cn | 1.采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间. 2. SCWS 采用纯 C 代码开发,以Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。 3.此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。 |
ctbparser | http://code.google.com/p/ctbparser/ | 1.用户可以自行编辑词条以改善分词,词性标注效果。 2.可以处理繁体中文。 3.用于分词、词性标注、依存句法分析 |
jcseg | http://code.google.com/p/jcseg/ | 1。mmseg四种过滤算法,分词准确率达到了97%以上。 2。支持自定义词库。 3。中文数字识别,例如:”四五十个人都来了,管他叁柒贰拾壹。”中的”四五十”和”叁柒贰拾壹”。(1.6.7版开始支持) 4。支持中英混合词的识别。例如:B超。 5。支持基本单字单位的识别,例如2012年。 6。智能圆角半角处理。 7。特殊字母识别:例如:Ⅰ,Ⅱ 8。特殊数字识别:例如:①,⑩ 9。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持) 10。智能中文人名识别。中文人名识别正确率达90%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来去除歧义,提高准确率)。 |
imdict-chinese-analyzer (ictclas中文分词程序的重新实现(基于Java)) | 高小平 | 功能:中文分词、停止词过滤 优点:开源,分词速度快,效率高 缺点:不支持自己添加词库,不支持词性标注(开发人员自己说是为了提高速度),data文件夹仅 自带了两个字典coredict核心字典、bigramdict词关系字典,这是两个最重要的词典,没有地名和 人名的词典,所以要识别人名地名比较麻烦,据说要用层次hmm,先粗分在细分。 |
mmseg4j | http://code.google.com/p/mmseg4j/ | 1.实现 mmseg 算法分词 2.有两种 Simple 和 Complex 分词 3.扩展 Lucene 的 Analyzer, 以便结合 Lucene 使用 4.扩展 Solr 的 TokenizerFactory,以便结合 Solr 使用 5使用sogou核心词库(15W) 6.实现多分词 7.允许多个词库文件 |
相关文章推荐
- 整理文件,发现一个05年自己写的火影鼠标程序[开源]
- CocoaChina整理的开源iPhone程序不完全列表
- 基于Tcp通信的聊天程序微风IM(c#开源) -技术分析(一) 用户管理
- 智林STM32程序源代码的分析和整理01(转帖)
- 微信小程序开源项目库整理
- 基于Tcp通信的聊天程序微风IM(c#开源) -技术分析(二) 消息转发
- 基于Tcp通信的聊天程序微风IM(c#开源) -技术分析(三) 客户端下线
- 整理文件,发现一个05年自己写的火影鼠标程序[开源]
- IM开源项目分析 同事收集整理
- 基于Tcp通信的聊天程序微风IM(c#开源) -技术分析(二) 消息转发
- [置顶] 开源一个文本分析项目
- 智林STM32程序源代码的分析和整理03(转帖)
- CocoaChina整理的开源iPhone程序不完全列表
- iOS开源程序下载链接整理
- 整理文件,发现一个05年自己写的火影鼠标程序[开源]
- 转储分析之寻找SDK安装程序挂死原因视频 笔记整理
- 小程序开源项目库整理
- 重磅开源:TN文本分析语言
- 智林STM32程序源代码的分析和整理04(转帖)
- 一个文本抽取分析的shell程序