您的位置:首页 > 其它

第一章 sklearn 介绍

2016-04-08 10:57 197 查看
机器学习问题分为监督学习和非监督学习,监督学习分为分类和回归。非监督学习包含一些聚类问题。

scikit-learn 包含一些标准数据集,如 iris and digits datasets
用于classification , bostonhouse prices dataset 用于回归。

1.2 加载数据集

>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> digits = datasets.load_digits()


数据集包含n_samples, n_features的数组

>>>print(digits.data)打印出所有的数据集合

>>> digits.target

打印出数据集的目标值

1.3 学习与预测

即fit(X,Y),predict(T)

对于数字识别问题,使用svm进行。

>>> from sklearn import svm
>>> clf = svm.SVC(gamma=0.001,
C=100.) 

clf为一个分类器

>>> clf.fit(digits.data[:-1],
digits.target[:-1])

预测

>>> clf.predict(digits.data[-1]) 
1.4 模型的persistence 
保存一个模型使用pickle,然后就不用再调参数

>>> from sklearn import svm
>>> from sklearn import datasets
>>> clf = svm.SVC()
>>> iris = datasets.load_iris()
>>> X, y = iris.data,
iris.target
>>> clf.fit(X, y)
输出SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,


  kernel='rbf', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)

>>> import pickle
>>> s = pickle.dumps(clf)


>>> clf2 = pickle.loads(s)

>>> clf2.predict(X[0])

array([0])
同时,也可以使用


 joblib’s 代替 pickle 

>>> from sklearn.externals import joblib

>>> joblib.dump(clf, 'filename.pkl') 

>>> clf = joblib.load('filename.pkl')
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: