您的位置:首页 > 其它

机器学习----决策树

2017-03-23 15:53 162 查看
西瓜书阅读笔记 话不多说 开始吧~

决策树选取属性标准

决策树选取属性标准:“信息增益”(information gain)

1. Gain(D,a)=Ent(D)−∑Vv=1|Dv|Ent(Dv)/|D|

2. Gain有选择多分支的倾向,比如按编号划分,就是说一个个体一个分支。这样当然是不好的,纠正,“增益率”(Gain Ratio)

Gain_ratio(D,a)=Gain(D,a)IV(a)

3. 基尼指数(Gini index)

Gini(D)=∑k
10b19
=1|y|∑m≠kpmpk=1−∑k=1|y|p2k

直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高。内聚性

预防过拟合

剪枝(validation 验证)

1. 预剪枝

2. 后剪枝

连续值处理

样本D/连续属性a。假定a在D上出现了n个不同取值{a1,a2,...an}

基于t,分为两类D−t/D+t, D−t为属性a上取值不大于t的样本,D+t为属性a上取值大于t的样本。

可以有n-1个元素候选划分集合:

Ta={ai+ai+12|1≤i≤n−1}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: