您的位置：首页 > 其它

机器学习基础概念

2016-12-30 11:36 204 查看

聚类：将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程，他的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。

数据预处理：在数据挖掘之前使用，大大提高了数据挖掘的质量

处理缺失值：

将含有缺失值的记录删除

根据变量之间的相关关系填补缺失值

根据案例之间的相似性填补缺失值

最小支持度计数为3，表示个数要大于等于3的才是频繁项

最小支持度的阈值，出现次数低于最小阈值的元素项将直接被忽略

最小支持度

最小置信度

离散变量是指其数值只能用自然数或者整数单位计算，

在一定区间内可以任意取值的变量叫连续型变量，其数值是连续不断的，相邻两个数值可以无限分割

年龄是连续型变量

连续属性的离散化就是在特定的连续属性的值域范围内设定若干个离散化的划分点，将属性的值域范围划分为一些离散化区间，最后用不同的符号或整数值代表落在每个子区间中的属性值

目的是简化数据结构

FP树的解读方式是读取某个节点开始到根节点的路径。路径上的元素构成一个频繁项集，开始节点的值表示这个项集的支持度，

为构建FP树，然后利用它来挖掘频繁项集，需要对原始数据集扫描两遍，第一遍是对所有元素项的出现次数进行计数，数据库的第一遍扫描用来统计出现的频率，而第二遍扫描中只考虑那些频繁元素

未知的豆离哪种豆最近就认为未知豆和该类豆是同一种类。KNN定义：为了判定未知样本的类别，以全部训练样本为代表点，计算未知样本与所有训练样本的距离，并以最近邻者的类别作为决策未知样本类别的唯一依据。

缺点：对噪声数据过于敏感，可以把位置周边的多个最近样本计算在内，扩大参与决策的样本量，以避免个别数据直接决定决策结果

KNN只关心哪类样本的数量最多，而不去把距离远近考虑在内，可以采用权值的方法来改进。

从训练样本集中选择k个与测试样本“距离”最近的样本，这k个样本中出现频率最高的类别即作为测试样本的类别

分类未知类别案例。

KNN算法主要被应用于文本分类。相似推荐。

boosting分类器属于集成学习模型，把成百上千个分类准确率较低的树模型组合起来，成为一个准确率很高的模型，

有监督学习：对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。因此，训练样本的岐义性低。

无监督学习：对没有概念标记（分类）的训练样本进行学习，以发现训练样本集中的结构性知识。这里，所有的标记（分类）是未知的。因此，训练样本的岐义性高。聚类就是典型的无监督学习

对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。

在上述的分类过程中，如果所有训练数据都有标签，则为有监督学习（supervised learning）。如果数据没有标签，显然就是无监督学习（unsupervised learning）了，也即聚类（clustering）。

既然分类如此之好，聚类如此之不靠谱，那为何我们还可以容忍聚类的存在？因为在实际应用中，标签的获取常常需要极大的人工工作量，有时甚至非常困难。例如在自然语言处理（NLP）中，Penn Chinese Treebank在2年里只完成了4000句话的标签……

二者的中间带就是半监督学习（semi-supervised learning）。对于半监督学习，其训练数据的一部分是有标签的，另一部分没有标签，而没标签数据的数量常常极大于有标签数据数量（这也是符合现实情况的）。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。（此处大量忽略细节）

作者：王丰

链接：https://www.zhihu.com/question/23194489/answer/25028661

来源：知乎

著作权归作者所有，转载请联系作者获得授权。

有监督学习（分类，回归）

↕

半监督学习（分类，回归），transductive learning（分类，回归）

↕

半监督聚类（有标签数据的标签不是确定的，类似于：肯定不是xxx，很可能是yyy）

↕

无监督学习（聚类）

regression 是说，这个标准答案是连续的。比如说，对三个月销售量的估计。classification 是说，这个标准答案是离散的。比如说，对是否患有cancer的判断。非监督学习就没有标准答案了。比如说，给你一堆数据，让你来分析这堆数据的结构。                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 提起决策树（DT,
Decision Tree) 绝大部分人首先想到的就是C4.5分类决策树。但如果一开始就把GBDT中的树想成分类树，那就是一条歪路走到黑，一路各种坑，最终摔得都要咯血了还是一头雾水说的就是LZ自己啊有木有。咳嗯，所以说千万不要以为GBDT是很多棵分类树。决策树分为两大类，回归树和分类树。前者用于预测实数值，如明天的温度、用户的年龄、网页的相关程度；后者用于分类标签值，如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面。这里要强调的是，前者的结果加减是有意义的，如10岁+5岁-3岁=12岁，后者则无意义，如男+男+女=到底是男是女？
GBDT的核心在于累加所有树的结果作为最终结果，就像前面对年龄的累加（-3是加负3），而分类树的结果显然是没办法累加的，所以GBDT中的树都是回归树，不是分类树，这点对理解GBDT相当重要（尽管GBDT调整后也可用于分类但不代表GBDT的树是分类树）。那么回归树是如何工作的呢？

但衡量最好的标准不再是最大熵，而是最小化均方差--即（每个人的年龄-预测年龄）^2 的总和 / N，或者说是每个人的预测误差平方和除以 N

randomForest , gbm 和 glmnet 是三个尤其流行的R包，它们在Kaggle的各大数据挖掘竞赛中的出现频率独占鳌头，被坊间人称为R数据挖掘包中的三驾马车。根据我的个人经验，gbm包比同样是使用树模型的randomForest包占用的内存更少，同时训练速度较快，尤其受到大家的喜爱。

eXtreme Gradient Boosting

随机森林=boosting+决策树

GBDT全称是Gradient Boosting Decision Tree，就是梯度提升决策树，与随机森林的思想很像，但是比随机森林稍稍的难一点，当然效果相对于前者而言，也会好许多

决策树分类的标准和依据是什么呢，下面介绍主要的2种划分标准。

1、信息增益。这是ID3算法系列所用的方法，C4.5算法在这上面做了少许的改进，用信息增益率来作为划分的标准，可以稍稍减小数据过于拟合的缺点。

2、基尼指数。这是CART分类回归树所用的方法。也是类似于信息增益的一个定义，最终都是根据数据划分后的纯度来做比较，这个纯度，你也可以理解为熵的变化，当然我们所希望的情况就是分类后数据的纯度更纯，也就是说，前后划分分类之后的熵的差越大越好。不过CART算法比较好的一点是树构造好后，还有剪枝的操作，剪枝操作的种类就比较多了，我之前在实现CART算法时用的是代价复杂度的剪枝方法。

首先对数据构造n个弱分类器，最后通过组合n个弱分类器对于某个数据的判断结果作为最终的分类结果，就变成了一个强分类器，效果自然要好过单一分类器的分类效果

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航