论文笔记2《决策树分类优化算法的研究----(上)》
2015-12-08 21:07
357 查看
《硕士论文》 2010年
部分摘要:ID3算法虽然很经典,但也有美中不足之处:第一,算法中使用了对数计算,而且计算过程复杂;第二,取值较多的属性被选择的机率比较大,即多值偏向问题。为了解决的这些问题,本文引入了泰勒公式和麦克劳林公式,对原算法进行化简,对于算法偏向于选取有较多取值的属性的缺点,用一个与属性取值个数相关的函数对简化后的属性信息增益进行修正。最后,用JAVA语言实现了改进前后的算法,并且在不同规模的数据集上进行仿真实验,把改进后算法分别与算法、算法进行比较分析,验证了改进后算法在构建决策树时所需的时间及分类准确率两个方面都优于其他两个算法。
算法改进:
(1)对于计算复杂度的改进对于算法的运算中多次要用到对数,通过引入泰勒公式和麦克劳林公式对算法中的熵、信息增益的计算进行化简,去除了对数运算,从而提高了算法的建树速度。
(2)多值偏向问题:在公式Gain(S,A)=E(S)-E(S,A)中,对于每一个节点来说E(S)都是一个定值,故可以选取属性的信息熵E(S,A)作为测试属性的比较标准。这样,在计算属性的信息熵时使用一个与属性取值个数相关的函数来调整属性的信息熵,以调整后新的信息熵作为标准来选取分裂属性。具体展开:
相关文章推荐
- win7下使用python的几种方式
- 《需求分析与系统设计》阅读笔记一
- 北大SQL数据库视频课程笔记
- linux中编译git时提示找不到ssl.h头文件
- (Win8、Win7)MAK激活密钥分享【资源有限】
- 【Android游戏开发之六】在SurfaceView中添加系统控件,并且相互交互数据!
- 初学数据结构自己写的二叉树,方便以后看
- VC中ocx组件调用方法
- JavaEE_Request和Response的区别
- 并查集压缩路径
- Volley框架之一 如何使用
- SQL学习笔记(6)之DCL语句和事务
- 决定以后坚持写自己的博客
- sql 自定义搜索结果列名自定义
- 出现次数最多的数
- nyoj 95 众数问题 【基础】
- leetcode -- Longest Common Prefix -- 简单O(n^2)就行
- 母函数(Generating function)详解 — TankyWoo
- codeforces 417C Football
- 华为路由器DHCP中继