您的位置:首页 > 编程语言 > Java开发

Java开源自然语言处理工具-LingPipe

2012-12-06 19:49 316 查看
LingPipe 是公司开发的一款自然语言处理开源Java软件包,目前最高版本是4.0.1

LingPipe的优势是:

比较全面的覆盖自然语言处理的各个分支,文本分词,聚类,语义情感分析,领域知识学习等等
具有全套在research上免费的源码,样列代码,测试代码(商业与非商业均同一套代码),并且文档详细,对于其中模型所参考的论文都引用出来,适合研究学习.
作为相对开源资源缺少的领域,项目一直持续更新中.

包含的模块:

主题分类(Top Classification) : 基于文本语言模型训练,归类
命名实体识别(Named Entity Recognition):基于first-best, n-best and per-entity confidencemodes识别,以及训练与评估识别器
聚类(Clustering): 基于single-link andcomplete-link多层聚类,包裹一些聚类评估技术
词性标注(Part-of Speech Tagging):
句题检测(Sentence Detection):
拼写更正(Spelling Correction):基于"你要找的是"风格的检查引擎
数据库文本挖掘(Database Text Mining)
字符串比较(String Comparison) :基于距离与相似度测量,包括权重距离,TF/IDF距离,Jaccard distance, Jaro-Winkler distance,等
兴趣短语检测(Interseting Phrase Detection)
字符语言建模(Character Language Modeling)
中文分词(Chinese WordSegmentation)基于空格分割类似训练库,机器学习,发现认知新词
数据库文本挖掘(Database Text Mining)
情感分析(Sentiment Analysis)基于文本聚类
断字识音(Hyphenation and Syllabification)
语言辨别(Language Identification)
奇异值分解(Singular Value Decomposition)
逻辑回归 (Logistic Regression)
期望最大化(Expectation Maximization)
词义排歧(Word Sense Disambiguation)

LingPipe包含资源:

Papaer&language material :source,介绍中均包含有所引用资源

目前个人应用LingPipe包中的中文分词,结合情感分析模块研究中文情感检测与辨别。API接口均已高度概括化,便于快速实现,不过所运用的算法需要详尽的分析。

Res: http://www.vanjor.org/blog/2010/11/lingpipe/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: