统计学习笔记(五)决策树
2017-03-31 11:40
399 查看
一、熵
熵是表示随机变量不确定性的度量,设 X 是一个离散型随机变量,统计学习中使用的熵是基于有限个离散随机变量的,所以 X 的取值是有限个,其概率分布为P(X=xi)=pi,i=1,2,...,n
则随机变量 X 的熵定义为
H(X)=−∑i=1npilogmpi
其中,p=0时,0log0=0。
(注:其中这个p为0的情况,我自己验算了以下,其实就是 p→0 时 plogp 的极限,是等于0的,这个读者们可以自己算一下。另外我顺便算了一下p趋近于1时 H(X) 的一项的极限,我得到的结果是约等于1.442695。不知道对不对,请感兴趣的读者帮我确认一下。)
二、条件熵
H(Y|X)=−∑i=1npiH(Y|X=xi)三、信息增益
g(D,A)=H(D)−H(D|A)说真的,我以前听到决策树,觉得多么高深莫测的。其实呢,决策树从道理上很好理解,因为和人的思考过程类似,从计算方法上也出奇的易懂。这应该是一个上手很快的算法。
信息增益的算法
设训练数据集 D ,|D| 表示其样本容量,有 K 个类 Ck ,k=1,2,...,K,|Ck| 为属于类 Ck 的样本个数,∑Kk=1|Ck|=|D|。特征 A 有 n 个不同的取值 ai∈{a1,a2,...,an},根据特征 A 的取值把 D 划分为 n个子集 D1,D2,...,Dn, |Di| 为 Di 的样本个数, ∑ni=1|Di|=|D|。子集 Di 中属于类 Ck 的样本集记为 Dik ,样本数量记为 |Dik| 。Dik=Di\bigcatCk , |Dik| 是 样本个数。1、信息增益的算法
输入:训练数据集D和特征A;
输出:数据的特征A对训练数据集D的信息增益 g(D,A) 。
(1)计算数据集 D 的经验熵 H(D)
H(D)=−∑k=1K|Ck||D|log2|Ck||D|
(2)计算特征 A 对 D 的经验条件熵 H(D|A)
H(D|A)=−∑i=1n|Di||D|H(Di)=−∑i=1n|Di||D|∑k=1K|Dik||Di|log2|Dik||Di|
(3)计算信息增益 g(D,A)
g(D,A)=H(D)−H(D|A)
四、信息增益比
gR(D,A)=g(D,A)H(D)=H(D)−H(D|A)H(D)决策树的生成
ID3
输入:数据集D,特征集A,阈值 ϵ;输出:决策树T
(1)
。。。
我可能语文太差没看懂。不过我还是能写出代码。相信自己。
下面开始coding 好了再写。
C4.5
CART
相关文章https://www.ibm.com/developerworks/cn/analytics/library/ba-1507-decisiontree-algorithm/index.html
http://blog.csdn.net/lemonaha/article/details/53886246
相关文章推荐
- 统计学习笔记之决策树(一)
- 统计学习方法学习笔记(五)--决策树
- 随笔:JS统计学习笔记
- 【集体智慧编程 学习笔记】统计订阅源中的单词数
- IOS学习笔记55--统计Crash的工具Crashlytics
- android 深度搜索学习笔记一 (单词统计)
- 统计学习方法笔记 -- 决策树
- 统计机器方法学习笔记
- 《征服c指针》学习笔记-----统计文本单词数目的程序word_count
- 统计机器方法学习笔记(2)
- 统计学习笔记
- 统计学习笔记(1)——统计学习方法概论
- 决策树学习笔记整理
- 统计学习笔记(2)——感知机模型
- IOS学习笔记55--统计Crash的工具Crashlytics
- 黑马程序员---移动用户资费统计系统学习笔记
- Oracle 学习笔记之二 足球赛程统计问题
- R语言学习笔记3--描述统计
- 统计语言模型学习笔记
- 学习笔记(2)糟糕的系统计与代码表现及反思