您的位置:首页 > 其它

Machine Learning with Scikit-Learn and Tensorflow 7.1 Voting Classifiers

2017-04-05 20:59 901 查看
书籍信息

Hands-On Machine Learning with Scikit-Learn and Tensorflow

出版社: O’Reilly Media, Inc, USA

平装: 566页

语种: 英语

ISBN: 1491962291

条形码: 9781491962299

商品尺寸: 18 x 2.9 x 23.3 cm

ASIN: 1491962291

系列博文为书籍中文翻译

代码以及数据下载:https://github.com/ageron/handson-ml

假设我们训练了许多分类器(例如逻辑回归,SVM,随机森林),每个分类器有大约80%的准确率。创造更优分类器的简单方法是将这些分类器的预测结果进行组合,将多数分类器输出的结果作为最终的预测结果,这就是hard voting classifier的基本思想。

令人吃惊的是,这样的分类器通常能够获得更好的效果。事实上,即使每个分类器都是弱分类器(略优于随机猜测),这些分类器组合而成的分类器仍然可能是效果优秀的强分类器,前提是分类器的数量足够而且具有充分的多样性。

下面的例子阐释其中的原因。假如我们有枚硬币,抛掷时有51%的概率正面向上,49%的概率背面向上。根据数学推导,抛掷1000次后正面向上的次数多于背面向上的次数的概率是75%,抛掷10000次后这样的概率是97%。这是因为大数定理:如果我们持续抛掷硬币,正面向上次数的比例越来越接近51%。

import numpy.random as rnd
rnd.seed(42)
heads_proba = 0.51
coin_tosses = (rnd.rand(10000, 10) < heads_proba).astype(np.int32)
cumulative_heads_ratio = np.cumsum(coin_tosses, axis=0) / np.arange(1, 10001).reshape(-1, 1)
plt.figure(figsize=(8,3.5))
plt.plot(cumulative_heads_ratio)
plt.plot([0, 10000], [0.51, 0.51], "k--", linewidth=2, label="51%")
plt.plot([0, 10000], [0.5, 0.5], "k-", label="50%")
plt.xlabel("Number of coin tosses")
plt.ylabel("Heads ratio")
plt.legend(loc="lower right")
plt.axis([0, 10000, 0.42, 0.58])
plt.show()




注释:随着抛掷次数的增加,正面向上次数的比例越来越接近51%,同时正面向上次数的比例稳定大于50%。

类似的,如果我们根据上面的方法使用1000个只有51%准确率的弱分类器构建强分类器,我们理论上会得到75%的准确率。但是前提是这些分类器是独立的,彼此的错误是不相关的,考虑到我们使用的是相同的训练数据,这样的前提是不现实的。实际上,因为这些分类器会犯同样的错误,而我们只是将多数分类器输出的结果作为最终的预测结果,所以模型的准确率会受到影响。

注释:

选择不同的算法能够增加模型犯不同错误的概率,从而提升集成学习的效果。

以下通过构造的数据集利用逻辑回归,随机森林和SVM训练voting classifier。

from sklearn.cross_validation import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

log_clf = LogisticRegression(random_state=42)
rnd_clf = RandomForestClassifier(random_state=42)
svm_clf = SVC(probability=True, random_state=42)

hard_voting_clf = VotingClassifier(
estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
voting='hard'
)
soft_voting_clf = VotingClassifier(
estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
voting='soft'
)
hard_voting_clf.fit(X_train, y_train)
soft_voting_clf.fit(X_train, y_train)

from sklearn.metrics import accuracy_score

for clf in (log_clf, rnd_clf, svm_clf):
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print clf.__class__.__name__, accuracy_score(y_test, y_pred)

hard_voting_clf.fit(X_train, y_train)
y_pred = hard_voting_clf.predict(X_test)
print "hard voting classifier", accuracy_score(y_test, y_pred)
soft_voting_clf.fit(X_train, y_train)
y_pred = soft_voting_clf.predict(X_test)
print "soft voting classifier", accuracy_score(y_test, y_pred)
# output
# LogisticRegression 0.864
# RandomForestClassifier 0.872
# SVC 0.888
# hard voting classifier 0.896
# soft voting classifier 0.912


如果所有的分类器都能够预测类别的概率(拥有predict_proba方法),那么我们可以将平均概率最高的结果作为最终的预测结果,这就是soft voting classifier的基本思想。通常,它比hard voting classifier效果好,因为它给把握高的结果更高的权重。我们可以通过VotingClassifier的voting参数实现以上方法。注意默认情况下SVM不能够预测类别的概率,需要设置参数probability,这样的设置会降低训练速度。可以发现,hard voting classifier达到89.6%的准确率,soft voting classifier达到91.2%的准确率,均高于单独的分类器。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: