您的位置：首页 > 其它

第一章 sklearn 介绍

2016-04-08 10:57 197 查看

机器学习问题分为监督学习和非监督学习，监督学习分为分类和回归。非监督学习包含一些聚类问题。

scikit-learn 包含一些标准数据集，如 iris and digits datasets
用于classification ， bostonhouse prices dataset 用于回归。

1.2 加载数据集

>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> digits = datasets.load_digits()

数据集包含n_samples, n_features的数组

>>>print(digits.data)打印出所有的数据集合

>>> digits.target

打印出数据集的目标值

1.3 学习与预测

即fit(X,Y),predict（T）

对于数字识别问题，使用svm进行。

>>> from sklearn import svm
>>> clf = svm.SVC(gamma=0.001,
C=100.)

clf为一个分类器

>>> clf.fit(digits.data[:-1],
digits.target[:-1])

预测

>>> clf.predict(digits.data[-1])
1.4 模型的persistence
保存一个模型使用pickle，然后就不用再调参数

>>> from sklearn import svm
>>> from sklearn import datasets
>>> clf = svm.SVC()
>>> iris = datasets.load_iris()
>>> X, y = iris.data,
iris.target
>>> clf.fit(X, y)
输出SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,

  kernel='rbf', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)

>>> import pickle
>>> s = pickle.dumps(clf)

>>> clf2 = pickle.loads(s)

>>> clf2.predict(X[0])

array([0])
同时，也可以使用

joblib’s 代替 pickle

>>> from sklearn.externals import joblib

>>> joblib.dump(clf, 'filename.pkl')

>>> clf = joblib.load('filename.pkl')

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航