您的位置：首页 > 其它

机器学习算法_第1篇

2016-05-28 14:28 288 查看

决策树

介绍

决策树基本思想：以信息熵为度量构造一颗熵值下降最快的树，到叶子节点处的熵值为0，此时每个叶子节点的实例都属于同一类。它是一种自顶向下的递归方法。

优点

易于理解和实现；

数据的准备往往简单或者不必要；

能够同时处理数据型和常规型属性；

是一个白盒模型；易于通过静态测试来对模型进行评测；

在相对较短的时间内能够对大型数据源做出可行且效果良好的结果

方法

ID3 ：信息增益最大准则

C4.5：信息增益比最大准则

CART：

回归树：平方误差最小准则

分类树：基尼系数最小准则

Adaboost算法

简介

Adaboost算法基本四线：将弱学习算法提升为强学习方法。对于分类器问题：从弱学习算法出发，反复学习，得到一系列弱分类器（又称基本分类器）；然后组合这些弱分类器，构成一个强分类器。

实现

Adaboost算法目的：使错误分类样本的权值加大，在后一轮的弱分类器中，得到更多关注。

提高前一轮弱分类器错误分类样本的权值

降低被正确分类器样本的权值

Adaboost采用加权多数表决的方法将弱分类器组合在一起。

加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用。

减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

Adaboost算法的训练误差是以指数速率下降的。

本质

Adaboost是前向分布加法算法的特例：

加法模型：有基本分类器组成

损失函数：指数函数

GDBT

步骤：

求出损失函数的负梯度，当做残差的近似值

然后让一棵树去拟合每个样本的残差

回归树和决策树很类似，只是回归树把落入叶子节点的样本，对于他们的标签求了个平均值输出。注意：这里的标签，对于GBDT来说，是每一个样本的残差

然后再去求这棵树的占的比重

线性搜索求系数，即每棵树的系数

最后的模型用这些树融合

支持向量机SVM

简介

支持向量机基本思想：间隔最大化。其学习算法是求解凸二次规划的最优化算法。

分类

线性可分支持向量机：硬间隔最大化（硬间隔支持向量机）

线性支持向量机：软间隔最大化（软间隔支持向量机）

非线性支持向量机：核函数（核方法）

算法

间隔最大化

1）求几何间隔最大的分离超平面；

2）换成函数间隔（不影响最优化问题的解）

3）最终转变成求解凸二次规划问题。

对偶算法

1）求对应的Lagrange函数

2）得到原问题

3）转换原问题的对偶问题，求导，后求极大值

最大分离超平面

1）求对偶问题的最优解，即原问题的最优解

2）得到最大分离超平面

3）得到分类决策函数

EM算法

简介

EM算法只有输入，内有对应的输出，属于非监督学习。它的目标函数是最大化对数似然函数。

整体矿建**

E-step计算

M-step计算

经常与高斯混合函数一起使用，用于参数求解。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 决策树 Adaboost算法 SVM算法 EM算法机器学习

相关文章推荐

新的分享

章节导航