您的位置:首页 > 其它

NLP和Machine Learning学习记录

2015-05-06 10:31 316 查看
毕业设计中需要利用NLP和ML技术来解决问题,这一个阶段对这些技术进行学习和应用。

NLP 技术

NLP学习主要参考书籍:用Python进行自然语言处理(中文) http://www.nltk.org/
可以解决分词(stem和lamma)、分句、词性标注、以及wordnet同义词分析、句子结构分析、实体识别等

关于文法特征,还需要进一步阅读

另外目前最新的NLP相关工具实现,可以参考http://nlp.stanford.edu/

本文主要利用NLP技术来进行中英文分句、分词,以及在分词的基础上词性标注,并建立句法树,在句法树的上依据特征进行实体识别

ML: Machine Learning

主要采用SVM来进行异常检测,OC-SVM可以检测出同一个类别中的异常行为;以及SVM用来实现分类;实现采用scikit-learn机器学习包中svm库来解决 http://scikit-learn.org/stable/modules/svm.html
主题建模

利用LDA来对系列文本进行主题建模,实现相似文本聚类,以及关键词抽取,可以利用gensim主题建模包,https://radimrehurek.com/gensim/,支持中文

mallet 机器学习工具,仅支持英文

聚类算法

k-mean算法 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
scikit-learn 是python上不错的机器学习包,很方便使用

其它:CRF:条件随机域,统计模型用来样本标签预测;https://pystruct.github.io/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: