您的位置：首页 > 其它

统计学习笔记（五）决策树

2017-03-31 11:40 399 查看

一、熵

熵是表示随机变量不确定性的度量，设 X 是一个离散型随机变量，统计学习中使用的熵是基于有限个离散随机变量的，所以 X 的取值是有限个，其概率分布为

P(X=xi)=pi,i=1,2,...,n

则随机变量 X 的熵定义为

H(X)=−∑i=1npilogmpi

其中，p=0时，0log0=0。

（注：其中这个p为0的情况，我自己验算了以下，其实就是 p→0 时 plogp 的极限，是等于0的，这个读者们可以自己算一下。另外我顺便算了一下p趋近于1时 H(X) 的一项的极限，我得到的结果是约等于1.442695。不知道对不对，请感兴趣的读者帮我确认一下。）

二、条件熵

H(Y|X)=−∑i=1npiH(Y|X=xi)

三、信息增益

g(D,A)=H(D)−H(D|A)

说真的，我以前听到决策树，觉得多么高深莫测的。其实呢，决策树从道理上很好理解，因为和人的思考过程类似，从计算方法上也出奇的易懂。这应该是一个上手很快的算法。

信息增益的算法

设训练数据集 D ，|D| 表示其样本容量，有 K 个类 Ck ，k=1,2,...,K，|Ck| 为属于类 Ck 的样本个数，∑Kk=1|Ck|=|D|。特征 A 有 n 个不同的取值 ai∈{a1,a2,...,an}，根据特征 A 的取值把 D 划分为 n个子集 D1,D2,...,Dn， |Di| 为 Di 的样本个数， ∑ni=1|Di|=|D|。子集 Di 中属于类 Ck 的样本集记为 Dik ，样本数量记为 |Dik| 。Dik=Di\bigcatCk ， |Dik| 是样本个数。

1、信息增益的算法

输入：训练数据集D和特征A；

输出：数据的特征A对训练数据集D的信息增益 g(D,A) 。

（1）计算数据集 D 的经验熵 H(D)

H(D)=−∑k=1K|Ck||D|log2|Ck||D|

（2）计算特征 A 对 D 的经验条件熵 H(D|A)

H(D|A)=−∑i=1n|Di||D|H(Di)=−∑i=1n|Di||D|∑k=1K|Dik||Di|log2|Dik||Di|

（3）计算信息增益 g(D,A)

g(D,A)=H(D)−H(D|A)

四、信息增益比

gR(D,A)=g(D,A)H(D)=H(D)−H(D|A)H(D)

决策树的生成

ID3

输入：数据集D，特征集A，阈值 ϵ；

输出：决策树T

（1）

。。。

我可能语文太差没看懂。不过我还是能写出代码。相信自己。

下面开始coding 好了再写。

C4.5

CART

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 统计学决策树

相关文章推荐

新的分享

章节导航