您的位置:首页 > 其它

机器学习算法_第1篇

2016-05-28 14:28 288 查看

决策树

介绍

决策树基本思想:以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0,此时每个叶子节点的实例都属于同一类。它是一种自顶向下的递归方法。

优点

易于理解和实现;

数据的准备往往简单或者不必要;

能够同时处理数据型和常规型属性;

是一个白盒模型;易于通过静态测试来对模型进行评测;

在相对较短的时间内能够对大型数据源做出可行且效果良好的结果

方法

ID3 :信息增益最大准则

C4.5:信息增益比最大准则

CART:

回归树:平方误差最小准则

分类树:基尼系数最小准则

Adaboost算法

简介

Adaboost算法基本四线:将弱学习算法提升为强学习方法。对于分类器问题:从弱学习算法出发,反复学习,得到一系列弱分类器(又称基本分类器);然后组合这些弱分类器,构成一个强分类器。

实现

Adaboost算法目的:使错误分类样本的权值加大,在后一轮的弱分类器中,得到更多关注。

提高前一轮弱分类器错误分类样本的权值

降低正确分类器样本的权值

Adaboost采用加权多数表决的方法将弱分类器组合在一起。

加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用。

减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。

Adaboost算法的训练误差是以指数速率下降的。

本质

Adaboost是前向分布加法算法的特例:

加法模型:有基本分类器组成

损失函数:指数函数

GDBT

步骤:

求出损失函数的负梯度,当做残差的近似值

然后让一棵树去拟合每个样本的残差

回归树和决策树很类似,只是回归树把落入叶子节点的样本,对于他们的标签求了个平均值输出。注意:这里的标签,对于GBDT来说,是每一个样本的残差

然后再去求这棵树的占的比重

线性搜索求系数,即每棵树的系数

最后的模型用这些树融合

支持向量机SVM

简介

支持向量机基本思想:间隔最大化。其学习算法是求解凸二次规划的最优化算法。

分类

线性可分支持向量机:硬间隔最大化(硬间隔支持向量机)

线性支持向量机:软间隔最大化(软间隔支持向量机)

非线性支持向量机:核函数(核方法)

算法

间隔最大化

1)求几何间隔最大的分离超平面;

2)换成函数间隔(不影响最优化问题的解)

3)最终转变成求解凸二次规划问题。

对偶算法

1)求对应的Lagrange函数

2)得到原问题

3)转换原问题的对偶问题,求导,后求极大值

最大分离超平面

1)求对偶问题的最优解,即原问题的最优解

2)得到最大分离超平面

3)得到分类决策函数

EM算法

简介

EM算法只有输入,内有对应的输出,属于非监督学习。它的目标函数是最大化对数似然函数。

整体矿建**

E-step计算

M-step计算

经常与高斯混合函数一起使用,用于参数求解。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息