决策树算法(机器学习实战,阅读笔记)
2018-02-01 02:04
155 查看
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
缺点:可能会产生过度匹配问题
使用数据类型:数值型,标称型
适用场景:邮件分类,专家系统
原理:在构造决策树时,需要解决的第一个问题上,当前数据集在哪个特征在划分数据分类时起决定性作用,为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据酒杯划分为几个数据子集,这些数据子集会分布在第一个决策点的所有分支上,如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确的划分数据分类了,无需进一步进行数据集的分割,如果数据子集内的数据不属于同一类型,则需要重复划分数据子集的过程,如何划分数据子集的算法和划分原始数据集的方法相同,知道所有具有相同类型的数据均在一个数据子集内。
划分数据集及的最大原则:使无序的数据变得更加有序,可以使用多种方法划分数据集
组织杂乱无章的数据的一种方式使用信息论度量信息,信息熵
过度匹配:决策树能够很好的匹配实验数据,但是有些数据的匹配选项可能太多了,形成过度匹配,为了减少过度匹配可以裁剪决策树。
相关文章推荐
- 机器学习实战(阅读笔记)
- K-近邻算法 机器学习实战(阅读笔记)
- 深度学习阅读笔记(二)之自动编码器SAD
- Java 对象内存管理 --- java 程序员的基本修养阅读笔记
- SDL源码阅读笔记(2) video dirver的初始化及选择
- 梦断代码--阅读笔记--软件工程
- Unix环境高级编程(阅读笔记)----setjmp和longjmp函数使用详解
- 阅读笔记:pg085 AXI4-Stream infrastructure
- 阅读Fragment源码笔记
- 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫 2014-05-23 14:07 515人阅读 评论(0) 收藏
- <黑客免杀攻防>第四章 其它免杀技术 阅读笔记
- 《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)周志明 著》阅读笔记目录(已完结)
- 《构建之法》阅读笔记--2
- XMPP RFC阅读笔记(一)
- Unsupervised Personalized Feature Selection--阅读笔记
- spark大数据处理技术--阅读笔记
- Android 编程权威指南 阅读笔记
- HTTPS and the TLS handshake protocol阅读笔记
- C++ FAQ阅读笔记[2]--引用
- [阅读笔记]Programming Models for Deep Learning