机器学习算法_第1篇
2016-05-28 14:28
288 查看
决策树
介绍决策树基本思想:以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0,此时每个叶子节点的实例都属于同一类。它是一种自顶向下的递归方法。
优点
易于理解和实现;
数据的准备往往简单或者不必要;
能够同时处理数据型和常规型属性;
是一个白盒模型;易于通过静态测试来对模型进行评测;
在相对较短的时间内能够对大型数据源做出可行且效果良好的结果
方法
ID3 :信息增益最大准则
C4.5:信息增益比最大准则
CART:
回归树:平方误差最小准则
分类树:基尼系数最小准则
Adaboost算法
简介Adaboost算法基本四线:将弱学习算法提升为强学习方法。对于分类器问题:从弱学习算法出发,反复学习,得到一系列弱分类器(又称基本分类器);然后组合这些弱分类器,构成一个强分类器。
实现
Adaboost算法目的:使错误分类样本的权值加大,在后一轮的弱分类器中,得到更多关注。
提高前一轮弱分类器错误分类样本的权值
降低被正确分类器样本的权值
Adaboost采用加权多数表决的方法将弱分类器组合在一起。
加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用。
减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。
Adaboost算法的训练误差是以指数速率下降的。
本质
Adaboost是前向分布加法算法的特例:
加法模型:有基本分类器组成
损失函数:指数函数
GDBT
步骤:
求出损失函数的负梯度,当做残差的近似值
然后让一棵树去拟合每个样本的残差
回归树和决策树很类似,只是回归树把落入叶子节点的样本,对于他们的标签求了个平均值输出。注意:这里的标签,对于GBDT来说,是每一个样本的残差
然后再去求这棵树的占的比重
线性搜索求系数,即每棵树的系数
最后的模型用这些树融合
支持向量机SVM
简介支持向量机基本思想:间隔最大化。其学习算法是求解凸二次规划的最优化算法。
分类
线性可分支持向量机:硬间隔最大化(硬间隔支持向量机)
线性支持向量机:软间隔最大化(软间隔支持向量机)
非线性支持向量机:核函数(核方法)
算法
间隔最大化
1)求几何间隔最大的分离超平面;
2)换成函数间隔(不影响最优化问题的解)
3)最终转变成求解凸二次规划问题。
对偶算法
1)求对应的Lagrange函数
2)得到原问题
3)转换原问题的对偶问题,求导,后求极大值
最大分离超平面
1)求对偶问题的最优解,即原问题的最优解
2)得到最大分离超平面
3)得到分类决策函数
EM算法
简介EM算法只有输入,内有对应的输出,属于非监督学习。它的目标函数是最大化对数似然函数。
整体矿建**
E-step计算
M-step计算
经常与高斯混合函数一起使用,用于参数求解。
相关文章推荐
- 用Python从零实现贝叶斯分类器的机器学习的教程
- My Machine Learning
- 机器学习---学习首页 3ff0
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- 反向传播(Backpropagation)算法的数学原理
- 关于SVM的那点破事
- 也谈 机器学习到底有没有用 ?
- TensorFlow人工智能引擎入门教程之九 RNN/LSTM循环神经网络长短期记忆网络使用
- TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
- TensorFlow人工智能引擎入门教程所有目录
- 如何用70行代码实现深度神经网络算法
- 量子计算机编程原理简介 和 机器学习
- 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
- 已经证实提高机器学习模型准确率的八大方法
- 初识机器学习算法有哪些?
- 机器学习相关的库和工具
- 10个关于人工智能和机器学习的有趣开源项目
- 机器学习实践中应避免的7种常见错误
- 机器学习常见的算法面试题总结
- 不平衡数据处理技术——RUSBoost