机器学习----决策树
2017-03-23 15:53
162 查看
西瓜书阅读笔记 话不多说 开始吧~
1. Gain(D,a)=Ent(D)−∑Vv=1|Dv|Ent(Dv)/|D|
2. Gain有选择多分支的倾向,比如按编号划分,就是说一个个体一个分支。这样当然是不好的,纠正,“增益率”(Gain Ratio)
Gain_ratio(D,a)=Gain(D,a)IV(a)
3. 基尼指数(Gini index)
Gini(D)=∑k
10b19
=1|y|∑m≠kpmpk=1−∑k=1|y|p2k
直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高。内聚性
1. 预剪枝
2. 后剪枝
基于t,分为两类D−t/D+t, D−t为属性a上取值不大于t的样本,D+t为属性a上取值大于t的样本。
可以有n-1个元素候选划分集合:
Ta={ai+ai+12|1≤i≤n−1}
决策树选取属性标准
决策树选取属性标准:“信息增益”(information gain)1. Gain(D,a)=Ent(D)−∑Vv=1|Dv|Ent(Dv)/|D|
2. Gain有选择多分支的倾向,比如按编号划分,就是说一个个体一个分支。这样当然是不好的,纠正,“增益率”(Gain Ratio)
Gain_ratio(D,a)=Gain(D,a)IV(a)
3. 基尼指数(Gini index)
Gini(D)=∑k
10b19
=1|y|∑m≠kpmpk=1−∑k=1|y|p2k
直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高。内聚性
预防过拟合
剪枝(validation 验证)1. 预剪枝
2. 后剪枝
连续值处理
样本D/连续属性a。假定a在D上出现了n个不同取值{a1,a2,...an}基于t,分为两类D−t/D+t, D−t为属性a上取值不大于t的样本,D+t为属性a上取值大于t的样本。
可以有n-1个元素候选划分集合:
Ta={ai+ai+12|1≤i≤n−1}
相关文章推荐
- 机器学习实战第三章,决策树的实现
- 机器学习(周志华)_第四章 决策树
- 机器学习技法总结(五)Adaptive Boosting, AdaBoost-Stump,决策树
- 【机器学习】决策树(上)——从原理到算法实现
- [Python源码解析]机器学习-决策树
- [机器学习实战]-决策树
- 机器学习【二】决策树
- 机器学习基础(二):决策树
- 【10月31日】机器学习实战(二)决策树:隐形眼镜数据集
- 机器学习之决策树 进行时......
- [机器学习]决策树和随机森林
- 【机器学习】决策树
- 机器学习经典算法-决策树学习之ID3算法
- python机器学习——数据的分类(knn,决策树,贝叶斯)代码笔记
- 机器学习实战--笔记3(决策树与随机森林)
- 【R的机器学习】机器学习概述和决策树
- 机器学习(二)决策树
- 机器学习:对决策树剪枝
- 机器学习之决策树整理
- 机器学习 决策树 转载