您的位置：首页 > 其它

文本分类/聚类

2016-07-02 23:16 281 查看

预处理

删除标点符号

python进行删除标点符号

text=u'''职位描述乐视招聘android自动化测试工程师岗位职责:1、负责android超级电视TV设备的自动化方案设计、自动化测试与工具开发； 2、根据项目特点研究稳定性测试技术,完成相关工具的开发以及测试；技能要求:1、有移动终端自动化工具架构设计与开发者优先,熟悉Android自动化工具Uiautomator、Monkey、MonkeyRunner 2、有实际用过JAVA/Python语言写过自动化测试脚本来测试项目的经验；
3、有Android自动化测试/稳定性测试经验,熟练掌握白盒测试工具JUnit、Instrumentation等； 4、熟悉linux命令,我们的工作环境是ubuntu操作系统 5、熟练使用git/svn等版本控制工具； 6、本科及以上学历（在职或者自考的本科可能暂时不考虑,ＨＲ要求的,特别优秀的除外）； PS:java/python编程开发基础扎实优先,有uiautomator实际项目经验者优先个性能力要求:1. 主动思考、积极向上,有较强的逻辑分析能力和学习能力。 2. 工作细心、耐心、有责任心。 3.
具有良好的沟通能力和团队合作精神。福利:转正后全员持股、年底奖金、带薪年假、餐补、交通补、通讯补等。'''

import re

print ' '.join(re.findall(u'[\u4e00-\u9fff]+', text))（保留中文字符的方法）

汉字繁简转换
https://github.com/berniey/hanziconv
中文文本聚类

基本文本聚类方法

转发： python进行中文文本聚类（切词以及Kmeans聚类）

python进行中文文本聚类实例（TFIDF计算、词袋构建）

[python] 基于k-means和tfidf的文本聚类代码简单实现

bag of words

基于libsvm的中文文本分类原型

文本分类特征选取之CHI开方检验

文本分类与聚类(text categorization and clustering)

NLP系列(2)_用朴素贝叶斯进行文本分类(上)

NLP系列(3)_用朴素贝叶斯进行文本分类(下)

bayes文本分类

基于 AC 自动机和贝叶斯方法的垃圾内容识别

文本分类实验总结

classify-text

Classifying text with bag-of-words: a tutorial

蛙蛙推荐：蛙蛙教你文本聚类
文本特征属性选择

自然语言处理第一番之文本分类器

深度学习在文本分类中的应用

深度学习在文本分类中的应用1

tensorflow实现基于LSTM的文本分类方法

知乎“看山杯”文本分类比赛思路和代码

2017知乎看山杯总结(多标签文本分类)

第一名解决方案
https://zhuanlan.zhihu.com/p/28923961 https://github.com/chenyuntc/PyTorchText
知乎看山杯第二名解决方案
https://zhuanlan.zhihu.com/p/29020616 https://github.com/Magic-Bubble/Zhihu
第三名
https://github.com/HouJP/zhihu-machine-learning-challenge-2017 https://bitbucket.org/niuox/zhihu-competition
[2017知乎看山杯多标签文本分类] ye组(第六名) 解题方案
https://biendata.com/competition/zhihu/ https://github.com/yongyehuang/zhihu-text-classification

第九名解决方案
大规模文本分类实践-知乎看山杯总结
https://github.com/coderSkyChen/zhihu_kanshan_cup_2017
第21名解决方案 https://github.com/zhaoyu87/zhihu https://github.com/xyx323/ZhiHuKanShan

利用word2vecv

特征提取：首先采用Google的Word2Vec工具，从海量的文本（本文）中，使用神经网络学习得到词典中每个词的向量表示。然后根据向量，对词典中的每个词进行聚类，例如聚类成500类（新的“词典”）。而后，使用工具对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的类别。这样类似向量空间模型（VSM），每个文档都可以用过关键词词频表示成一个500维的向量，这个向量就是这个文档的“特征向量”。

分类器训练：常用的分类器有K-Nearest Neighbor（K近邻，KNN）、决策树（Decision Tree，DT）、支持矢量机（Support Vector Machine， SVM）、人工神经网络（Artificial Neural Network，ANN）等。训练分类器时，每个文档除用一个特征向量表示之外，还需要提供类别标签（即监督信息），训练集已经提供人工标注的标签。

分类测试：训练好分类器后，一个新的不知道类别的文档（无类别标注），首先经过相同的特征提取步骤，得到特征向量，然后送入分类器，得到分类结果。然后统计分类正确率，进行效果分析。
https://github.com/wabyking/TextClassificationBenchmarkInPytorch
fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
https://github.com/brightmart/text_classification

fasttext

fastText原理及应用

如何评价Word2Vec作者提出的fastText算法？深度学习是否在文本分类等简单任务上没有优势？

专栏 | fastText原理及实践

NLP︱高级词向量表达（二）——FastText（简述、学习笔记）

FastText总结,fastText 源码分析

text cnn

Convolutional Neural Networks for Sentence Classification

基于卷积神经网络(CNN)的中文垃圾邮件检测
https://github.com/epcilon/zh_cnn_text_classify https://github.com/dennybritz/cnn-text-classification-tf

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航