您的位置:首页 > 其它

统计学习笔记(五)决策树

2017-03-31 11:40 399 查看

一、熵

熵是表示随机变量不确定性的度量,设 X 是一个离散型随机变量,统计学习中使用的熵是基于有限个离散随机变量的,所以 X 的取值是有限个,其概率分布为

P(X=xi)=pi,i=1,2,...,n

则随机变量 X 的熵定义为

H(X)=−∑i=1npilogmpi

其中,p=0时,0log0=0。

(注:其中这个p为0的情况,我自己验算了以下,其实就是 p→0 时 plogp 的极限,是等于0的,这个读者们可以自己算一下。另外我顺便算了一下p趋近于1时 H(X) 的一项的极限,我得到的结果是约等于1.442695。不知道对不对,请感兴趣的读者帮我确认一下。)

二、条件熵

H(Y|X)=−∑i=1npiH(Y|X=xi)

三、信息增益

g(D,A)=H(D)−H(D|A)

说真的,我以前听到决策树,觉得多么高深莫测的。其实呢,决策树从道理上很好理解,因为和人的思考过程类似,从计算方法上也出奇的易懂。这应该是一个上手很快的算法。

信息增益的算法

设训练数据集 D ,|D| 表示其样本容量,有 K 个类 Ck ,k=1,2,...,K,|Ck| 为属于类 Ck 的样本个数,∑Kk=1|Ck|=|D|。特征 A 有 n 个不同的取值 ai∈{a1,a2,...,an},根据特征 A 的取值把 D 划分为 n个子集 D1,D2,...,Dn, |Di| 为 Di 的样本个数, ∑ni=1|Di|=|D|。子集 Di 中属于类 Ck 的样本集记为 Dik ,样本数量记为 |Dik| 。Dik=Di\bigcatCk , |Dik| 是 样本个数。

1、信息增益的算法

输入:训练数据集D和特征A;

输出:数据的特征A对训练数据集D的信息增益 g(D,A) 。

(1)计算数据集 D 的经验熵 H(D)

H(D)=−∑k=1K|Ck||D|log2|Ck||D|

(2)计算特征 A 对 D 的经验条件熵 H(D|A)

H(D|A)=−∑i=1n|Di||D|H(Di)=−∑i=1n|Di||D|∑k=1K|Dik||Di|log2|Dik||Di|

(3)计算信息增益 g(D,A)

g(D,A)=H(D)−H(D|A)

四、信息增益比

gR(D,A)=g(D,A)H(D)=H(D)−H(D|A)H(D)

决策树的生成

ID3

输入:数据集D,特征集A,阈值 ϵ;

输出:决策树T

(1)

。。。

我可能语文太差没看懂。不过我还是能写出代码。相信自己。

下面开始coding 好了再写。

C4.5

CART

相关文章

https://www.ibm.com/developerworks/cn/analytics/library/ba-1507-decisiontree-algorithm/index.html

http://blog.csdn.net/lemonaha/article/details/53886246
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  统计学 决策树