您的位置：首页 > 其它

机器学习----决策树

2017-03-23 15:53 162 查看

西瓜书阅读笔记话不多说开始吧~

决策树选取属性标准

决策树选取属性标准：“信息增益”（information gain）

1. Gain(D,a)=Ent(D)−∑Vv=1|Dv|Ent(Dv)/|D|

2. Gain有选择多分支的倾向，比如按编号划分，就是说一个个体一个分支。这样当然是不好的，纠正，“增益率”（Gain Ratio）

Gain_ratio(D,a)=Gain(D,a)IV(a)

3. 基尼指数(Gini index)

Gini(D)=∑k
10b19
=1|y|∑m≠kpmpk=1−∑k=1|y|p2k

直观来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini（D）越小，则数据集D的纯度越高。内聚性

预防过拟合

剪枝（validation 验证）

1. 预剪枝

2. 后剪枝

连续值处理

样本D/连续属性a。假定a在D上出现了n个不同取值{a1,a2,...an}

基于t，分为两类D−t/D+t, D−t为属性a上取值不大于t的样本，D+t为属性a上取值大于t的样本。

可以有n-1个元素候选划分集合：

Ta={ai+ai+12|1≤i≤n−1}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航