您的位置:首页 > 其它

数据挖掘:数据挖掘导论第四章

2014-04-20 21:28 218 查看
2014.4.20

参考资料:Introduction to Data Mining, Chap 4

4.2

首先是General Approach to Solving a Classification Problem,即“分类问题的总体分类”

首先,要有训练数据集Train Set,要有学习算法Learning Machine。学习算法以训练数据集为材料,训练出一个符合Train Set的模型Model。然后用这个Model来推测测试用的数据集,看效果怎么样。即分类问题的结果是一个较好的Model。这个过程可以用下图表示



建立了Model以后,用这个Model在测试数据集Test Set中预测正确的比例评价得出的Model怎么样!

/********************************************************************************************/

4.3 Decision Tree Induction

4.3.1

介绍了一个分类classification问题是怎么用Decison Tree解决的。

4.3.2

建立decision tree的algorithm usually employ a greedy strategy that grows a decision tree by making a series of locally optimum decisions about which attribute to use for partitioning the data.

意思是,有很多属性attribute可供选择用以当增加decision tree的判断条件。具体选择哪一个属性呢?很多算法会拿各个属性进行划分尝试,哪个属性在当前的划分效果最好,就拿那个属性做下一步的判断条件。

4.3.3

讲的是,当选择了一个属性作为增加decision tree的判断条件后,我们具体怎么用这个属性做判断条件呢?给出了几种情况:当属性是binary attribute时,当属性是nominal attribute时,当属性是Ordinal Attribute时,当属性是Continuous Attribute时

4.3.4

是4.3.3的进一步,讲的是,具体怎么选择一个值作为判断条件的分界点呢?

4.3.5和4.3.6分别给出了一个算法和一个应用。

4.3.7

讲了一些使用decison tree来进行解决分类问题的经验之谈(但是我没用过,所以暂时不能充分体会到)

/********************************************************************************************/

4.4:Model Overfitting

先讲了什么是Model Overfitting。就是因为一个模型过于贴合train set而使得对于test set的预测效果不好。等价的一句话是使得training errors很低,而generalizaion errors升高。

4.4.1~4.4.3讲了造成Model Overfitting现象出现的几个可能原因:Due to Presence of Noise, Due to Lack of Representative Samples, Due to Multiple Comparison Procedure.

4.4.4

宣扬了一种观点:关于主要是什么原因会造成过于Model Overfitting还在debate;但是有一点是普遍认识到的,就是建立出的model的complexity(我认为意为模型精细程度)会对Model Overfitting有一定影响。

所以,这一节讨论的是我们应该怎样决定一个model发展到怎样的complexity能够最好地减少test error。主要思路是用train error和model complexity来预测对于test set的test
error。具体介绍了以下几种预测算法:直接用train error作为test error的预测;将train error和model complexity结合;基于统计分布来修正train error来预测test error;将train set再次分割,一部分用于train,一部分用于预测test set的效果,这种方法叫validation set。

4.4.5

上一节讲的是利用预测test error来使得learning algorithm形成的model不会overfit
the training data。这一节则是在Decision Tree形成过程中解决overfitting的问题。主要方法是修剪decision tree,有两个方向:prepruning和post-pruning

/********************************************************************************************/

4.5 Evaluating the Performance
of a Classifier

评价建立出的model是否有较好的generalization
error。介绍了几种评价方法:

4.5.1 Holdout Method 将打好标签的数据集分成train
set & test set,用train set 建立model,然后用model预测test set,将预测的错误率作为对于以后未知数据的generalizaion error。

4.5.2
Random Subsampling 就是repeate holdout method several times.

4.5.3
Cross-Validation :k-fold cross-validation将打好标签的数据集分成k份,每次选一份作为test set,剩下的作为train set ,运行k次,使得每份数据都成为一次test set。

4.5.4
Bootstrap:在决定train set的record时采用放回抽样。

/********************************************************************************************/

4.6
Method for Comparing Classifiers (关键是暂时没搞懂这一节和上一节的关系)

4.6.1
讲的是根据将model对test set预测后,得出了一个预测的准确率accuracy。如何根据这个test set的accuracy得出整个推广到所有未知数据的generalization accuracy的一个置信区间。

4.6.2
(还不是很理解,特别是statistically significant)讲的是当两个model在两个大小不同的test set上各自取得了一个error rate,我们能否确定这两个error rate能说明孰优孰劣。

4.6.3
如何根据两个classifier产生的model对于test set的error rate之差的分布来推测两个classifier产生的model真实error rate之差的置信区间。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: