利用贝叶斯分类器对fetch_20newsgroups数据集进行分类
2017-10-26 08:54
651 查看
from sklearn.datasets import fetch_20newsgroups
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
news = fetch_20newsgroups(subset='all')#本次使用的数据需要到互联网上下载
#查看数据
print(len(news.data))
print(news.data[0])
#对数据训练集和测试件进行划分
X_train,X_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25,random_state=33)
vec = CountVectorizer()
X_train = vec.fit_transform(X_train)
X_test = vec.transform(X_test)
#利用贝叶斯分类器对数据进行分类
mnb = MultinomialNB()
mnb.fit(X_train,y_train)
y_predict = mnb.predict(X_test)
print('The accuracy of Naive Bays Classifier is',mnb.score(X_test,y_test))
print(classification_report(y_test,y_predict,target_names=news.target_names))
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
news = fetch_20newsgroups(subset='all')#本次使用的数据需要到互联网上下载
#查看数据
print(len(news.data))
print(news.data[0])
#对数据训练集和测试件进行划分
X_train,X_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25,random_state=33)
vec = CountVectorizer()
X_train = vec.fit_transform(X_train)
X_test = vec.transform(X_test)
#利用贝叶斯分类器对数据进行分类
mnb = MultinomialNB()
mnb.fit(X_train,y_train)
y_predict = mnb.predict(X_test)
print('The accuracy of Naive Bays Classifier is',mnb.score(X_test,y_test))
print(classification_report(y_test,y_predict,target_names=news.target_names))
相关文章推荐
- 使用CountVectorizer和TfidfVectorizer对fetch_20newsgroups数据进行分类,并对是否使用停用词进行对比(精确度)
- Sklearn导入数据集20newsgroups报错-no handlers could be fetch_20newsgroups
- fetch_20newsgroups 数据集导入失败: no handlers could be fetch_20newsgroups
- Tensorflow学习教程------利用卷积神经网络对mnist数据集进行分类_利用训练好的模型进行分类
- Tensorflow学习教程------利用卷积神经网络对mnist数据集进行分类_训练模型
- 利用tensorflow进行单词分类
- 在ENVI进行的土地利用分类数据,需要做景观指数分析,如何将其转换成GRID格式呀
- 利用朴素贝叶斯算法进行分类-Java代码实现
- 使用knn和logsitic对make_blobs数据集进行分类
- 利用机器学习进行分类(梯度算法)
- tensorflow 学习专栏(四):使用tensorflow在mnist数据集上使用逻辑回归logistic Regression进行分类
- 训练LSTM模型进行情感分类在IMDB数据集上,使用Keras API(Trains an LSTM model on the IMDB sentiment classification)
- 机器学习分类之结合实际应用介绍KNN算法原理以及利用sklearn进行分类预测
- 利用tensorflow进行单词分类
- Mxnet图片分类(4)利用训练好的模型进行测试
- 利用python实现对分类变量与数值变量混合的数据进行聚类分析
- 使用不同的SVM对iris数据集进行分类并绘出结果
- 【自然语言处理入门】03:利用线性回归对数据集进行分析预测(下)
- iris数据集进行KNN分类
- 虚拟机Ubuntu14.04+Caffe+libsvm对数据集进行分类