机器学习之分类学习(模型训练)
2017-08-29 13:28
260 查看
完成数据的预处理,接下进入分类学习中的重点–模型训练。在前面我们得到了一批数据,现在我们需要从中提取出一部分数据作为我们训练的数据,当然我们也可以把全部的数据作为我们训练的数据,但是如果我们把全部的数据都拿来作为训练就没有数据来测试我们模型的性能了,因为训练数据和测试数据不能重叠,不然就是作弊了,这样性能测试结果并不能真实的反应模型的性能了。同时在提取训练数据过程中,按照随机的原则,不然也是作弊的行为。一般我们从数据中提取75%作为训练数据,提取25%作为测试数据。
在我们得到的数据中,第0列是序号,第1到第9列是样本的特征,第10列是样本的结果。
得到了训练数据,接下来我们就需要建立并训练模型了。在此之前需要一个小小的数据调整–标准化数据,即将数据收缩到同一个范围内,比如说一丈和两米的比较,在计算机中我们输入的是1和2并没有带单位,这样对计算机来说肯定是2更长,但是我们知道是一丈更长,所以我们进行比较时要先将一丈标准化为3.33米,又或者将2米标准化为0.6丈,这个是凭个人习惯。
下面利用逻辑回归模型训练数据。
最终我们得到了lr这个逻辑回归模型。
# 使用sklearn.cross_valiation里的train_test_split模块用于分割数据。 from sklearn.cross_validation import train_test_split # 随机采样25%的数据用于测试,剩下的75%用于构建训练集合。 X_train, X_test, y_train, y_test = train_test_split(data[column_names[1:10]], data[column_names[10]], test_size=0.25, random_state=33) #column_names[1:10]]所要划分的样本的特征集 #data[column_names[10]]所要划分的样本的结果 #test_size测试样本的占比,如果是整数的话就是测试样本的数量 #random_state随机数的种子
在我们得到的数据中,第0列是序号,第1到第9列是样本的特征,第10列是样本的结果。
得到了训练数据,接下来我们就需要建立并训练模型了。在此之前需要一个小小的数据调整–标准化数据,即将数据收缩到同一个范围内,比如说一丈和两米的比较,在计算机中我们输入的是1和2并没有带单位,这样对计算机来说肯定是2更长,但是我们知道是一丈更长,所以我们进行比较时要先将一丈标准化为3.33米,又或者将2米标准化为0.6丈,这个是凭个人习惯。
# 从sklearn.preprocessing里导入StandardScaler。 from sklearn.preprocessing import StandardScaler # 标准化数据,保证每个维度的特征数据方差为1,均值为0。使得预测结果不会被某些维度过大的特征值而主导。 ss = StandardScaler() X_train = ss.fit_transform(X_train) X_test = ss.transform(X_test)
下面利用逻辑回归模型训练数据。
from sklearn.linear_model import LogisticRegression lr = LogisticRegression() # 调用LogisticRegression中的fit函数/模块用来训练模型参数。 lr.fit(X_train, y_train)
最终我们得到了lr这个逻辑回归模型。
相关文章推荐
- 机器学习之分类学习(模型训练)
- 学习SVM(一) SVM模型训练与分类的OpenCV实现
- 【机器学习】python实践笔记 -- 经典监督学习模型之分类学习模型
- Tensorflow学习教程------利用卷积神经网络对mnist数据集进行分类_利用训练好的模型进行分类
- 03-《机器学习及实践》学习之使用线性分类模型
- caffe的python接口学习(6):用训练好的模型(caffemodel)来分类新的图片
- DL学习笔记【15】使用训练好的模型得到分类结果
- 机器学习实验(十二):深度学习之图像分类模型AlexNet结构分析和tensorflow实现
- 07-《机器学习及实战》学习之K近邻分类模型
- 斯坦福大学机器学习笔记——当训练模型性能不好时的措施(假设评估、模型选择和交叉验证集、正则化、学习曲线)
- caffe的python接口学习:用训练好的模型(caffemodel或者h5)来分类新的图片
- 【机器学习PAI实践十】深度学习Caffe框架实现图像分类的模型训练
- tensorflow 学习笔记(十二)- 用别人训练好的模型来进行图像分类
- Tensorflow学习教程------利用卷积神经网络对mnist数据集进行分类_训练模型
- caffe的python接口学习(6):用训练好的模型(caffemodel)来分类新的图片
- Tensorflow学习(7)用别人训练好的模型进行图像分类
- caffe的python接口学习(6):用训练好的模型(caffemodel)来分类新的图片
- tensorflow 1.0 学习:用别人训练好的模型来进行图像分类
- caffe的python接口学习(6):用训练好的模型(caffemodel)来分类新的图片
- 如何用Python和机器学习训练中文文本情感分类模型?