数据分析之美:决策树
2015-07-30 16:35
232 查看
信息熵
信息熵(Entropy)是指:一组数据所包含的信息量,使用概率来度量。数据包含的信息越有序,所包含的信息越低;数据包含的信息越杂,包含的信息越高。例如在极端情况下,如果数据中的信息都是0,或者都是1,那么熵值为0,因为你从这些数据中得不到任何信息,或者说这组数据给出的信息是确定的。如果数据时均匀分布,那么他的熵最大,因为你根据数据不能知晓那种情况发生的可能性比较大。信息熵单位是比特(Bit),变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
计算熵的公式为:
实际上,信息熵表示的是信息的不确定性。当概率相同时,不确定性越大,因为所有的信息概率相同,你不能确定哪个信息出现的可能性更大;当某类别发生的概率为0或者1时,给出的结果是确定的(出现或者不出现、发生或者不发生)。这样的解释会不会更清楚点。
信息增益 Information Gain(IG)
Information Gain(IG),信息增益和信息熵描述的信息是一致的;描述的是对于数据集合S,将其按照其属性A切分后,获得的信息增益值。注意IG描述的是信息的增益值,当不确定性越大时,信息增益值应该是越小,反之亦然,是负相关的关系。
决策树算法 TODO
ID3算法的局限是它的属性只能取离散值,为了使决策树能应用于连续属性值情况,Quinlan给出了ID3的一个扩展算法:即C4.5算法。C4.5算法之所以是最常用的决策树算法,是因为它继承了ID3算法的所有优点并对ID3算的进行了改进和补充。C4.5算法采用信息增益率(Information Gain Ratio)作为选择分支属性的标准,并克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足,并能够完成对连续属性离散化是处理;还能够对不完整数据进行处理。
C4.5的缺点:
1:算法低效,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效
2:内存受限,适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
ID3算法的局限是它的属性只能取离散值,为了使决策树能应用于连续属性值情况,Quinlan给出了ID3的一个扩展算法:即C4.5算法。
C4.5算法之所以是最常用的决策树算法,是因为它继承了ID3算法的所有优点并对ID3算的进行了改进和补充。C4.5算法采用信息增益率(Information Gain Ratio)作为选择分支属性的标准,并克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足,并能够完成对连续属性离散化是处理;还能够对不完整数据进行处理。
C4.5的缺点:
1:算法低效,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效
2:内存受限,适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
决策树剪枝 TODO
规则后修剪rule post-pruning错误率降低修剪reduced-error pruning
Cost-Complexity Pruning(CCP、代价复杂度)
相关文章推荐
- leetcode 069 —— Sqrt(x)
- android开发中获取系统时间方法
- c转汇编
- Mysql基本检索数据方法大全
- 制作MACOSX10.10.3/10.9安装启动盘U盘的教程
- 安卓电量读取
- 关于nginx的1W并发的优化
- 页面滑动悬停在某个控件(两种做法)
- 2015 年最棒的 5 个 HTML5 框架(转)
- 程序员的恋情
- .NET破解之google瓦片下载及拼接
- Scala 中 构造函数,重载函数的执行顺序
- Android安全研究经验谈
- ssh centos中文乱码
- spring中PropertyPlaceholderConfigurer的使用
- 详解Spring MVC 4常用的那些注解
- 【BZOJ 3679】数字之积
- Python 3 中检测QQ在线的脚本
- hdu杭电2199 Can you solve this equation?【二分】
- android 获取 imei号码