您的位置：首页 > 其它

图解十大经典的机器学习算法

2018-01-22 00:00 295 查看

[b][b][b][b][b][b][b][b][b][b][b][b][b][b][b][b]

[/b][/b][/b][/b][/b][/b][/b][/b][/b][/b][/b][/b][/b][/b][/b][/b]人工智能技术已经是手机上很多应用程序的核心驱动力，比如下图是一部典型的iPhone手机上安装的一些常见应用程序。苹果Siri、百度度秘、微软小冰等智能助理类应用，正试图颠覆你和手机交流的根本方式，将手机变成聪明的小秘书；新闻类应用依赖于智能推荐技术，向你推送最适合你的内容；美图秀秀自动对招聘、视频完成智能化的艺术创作；购物类应用采用智能物流技术帮助企业高效、安全地分发货物，提升买家的满意度；滴滴出行，帮助司机师傅选择路线，在不久的将来，自动驾驶技术将重新定义智慧出行。这一切的发生，主要归功于一种实现人工智能的方法——机器学习。

图1 iPhone手机上的相关应用传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。这篇文章将对常用算法做常识性的介绍，没有代码，也没有复杂的理论推导，就是图解一下，知道这些算法是什么，它们是怎么应用的。 决策树根据一些 feature（特征）进行分类，每个节点提一个问题，通过判断，将数据分为两类，再继续提问。这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上。

图2 决策树原理示意图 随机森林在源数据中随机选取数据，组成几个子集：

图3-1 随机森林原理示意图S矩阵是源数据，有1-N条数据，A、B、C 是feature，最后一列C是类别：

由S随机生成M个子矩阵：

这M个子集得到 M 个决策树：将新数据投入到这M个树中，得到M个分类结果，计数看预测成哪一类的数目最多，就将此类别作为最后的预测结果。

图3-2 随机森林效果展示图 逻辑回归当预测目标是概率这样的，值域需要满足大于等于0，小于等于1的，这个时候单纯的线性模型是做不到的，因为在定义域不在某个范围之内时，值域也超出了规定区间。

图4-1 线性模型图所以此时需要这样的形状的模型会比较好：

图4-2那么怎么得到这样的模型呢？这个模型需要满足两个条件 “大于等于0”，“小于等于1” 。大于等于0 的模型可以选择绝对值，平方值，这里用指数函数，一定大于0；小于等于1 用除法，分子是自己，分母是自身加上1，那一定是小于1的了。

图4-3再做一下变形，就得到了 logistic regressions 模型：

图4-4通过源数据计算可以得到相应的系数了：

图4-5最后得到 logistic 的图形：

图4-6 LR模型曲线图 支持向量机要将两类分开，想要得到一个超平面，最优的超平面是到两类的 margin 达到最大，margin就是超平面与离它最近一点的距离，如下图，Z2>Z1，所以绿色的超平面比较好。

图5 分类问题示意图将这个超平面表示成一个线性方程，在线上方的一类，都大于等于1，另一类小于等于－1：

点到面的距离根据图中的公式计算：

所以得到total margin的表达式如下，目标是最大化这个margin，就需要最小化分母，于是变成了一个优化问题：

举个例子，三个点，找到最优的超平面，定义了 weight vector＝（2，3）－（1，1）：

得到weight vector为（a，2a），将两个点代入方程，代入（2，3）另其值＝1，代入（1，1）另其值＝-1，求解出 a 和截矩 w0 的值，进而得到超平面的表达式。

a求出来后，代入（a，2a）得到的就是support vector，a和w0代入超平面的方程就是support vector machine。 朴素贝叶斯举个在 NLP 的应用：给一段文字，返回情感分类，这段文字的态度是positive，还是negative：

图6-1 问题案例为了解决这个问题，可以只看其中的一些单词：

这段文字，将仅由一些单词和它们的计数代表：

原始问题是：给你一句话，它属于哪一类？通过bayes rules变成一个比较简单容易求得的问题：

问题变成，这一类中这句话出现的概率是多少，当然，别忘了公式里的另外两个概率。例子：单词“love”在positive的情况下出现的概率是 0.1，在negative的情况下出现的概率是0.001。

图6-2 NB算法结果展示图 K近邻算法给一个新的数据时，离它最近的 k 个点中，哪个类别多，这个数据就属于哪一类。
例子：要区分“猫”和“狗”，通过“claws”和“sound”两个feature来判断的话，圆形和三角形是已知分类的了，那么这个“star”代表的是哪一类呢？

图7-1 问题案例k＝3时，这三条线链接的点就是最近的三个点，那么圆形多一些，所以这个star就是属于猫。

图7-2 算法步骤展示图 K均值算法先要将一组数据，分为三类，粉色数值大，黄色数值小。最开始先初始化，这里面选了最简单的 3，2，1 作为各类的初始值。剩下的数据里，每个都与三个初始值计算距离，然后归类到离它最近的初始值所在类别。

图8-1 问题案例分好类后，计算每一类的平均值，作为新一轮的中心点：

图8-2几轮之后，分组不再变化了，就可以停止了：

图8-3 算法结果展示 AdaboostAdaboost 是 Boosting 的方法之一。Boosting就是把若干个分类效果并不好的分类器综合起来考虑，会得到一个效果比较好的分类器。
下图，左右两个决策树，单个看是效果不怎么好的，但是把同样的数据投入进去，把两个结果加起来考虑，就会增加可信度。

图9-1 算法原理展示Adaboost 的例子，手写识别中，在画板上可以抓取到很多features（特征），例如始点的方向，始点和终点的距离等等。

图9-2training的时候，会得到每个feature的weight（权重），例如2和3的开头部分很像，这个feature对分类起到的作用很小，它的权重也就会较小。

图9-3而这个alpha角就具有很强的识别性，这个feature的权重就会较大，最后的预测结果是综合考虑这些feature的结果。

图9-4 神经网络Neural Networks适合一个input可能落入至少两个类别里：NN由若干层神经元，和它们之间的联系组成。第一层是input层，最后一层是output层。在hidden层和output层都有自己的classifier。

图10-1 神经网络结构input输入到网络中，被激活，计算的分数被传递到下一层，激活后面的神经层，最后output层的节点上的分数代表属于各类的分数，下图例子得到分类结果为class 1；同样的input被传输到不同的节点上，之所以会得到不同的结果是因为各自节点有不同的weights 和bias，这也就是forward propagation。

图10-2 算法结果展示 马尔科夫Markov Chains由state（状态）和transitions（转移）组成。例子，根据这一句话 ‘the quick brown fox jumps over the lazy dog’，要得到markov chains。
步骤，先给每一个单词设定成一个状态，然后计算状态间转换的概率。

图11-1 马尔科夫原理图这是一句话计算出来的概率，当你用大量文本去做统计的时候，会得到更大的状态转移矩阵，例如the后面可以连接的单词，及相应的概率。

图11-2 算法结果展示上述十大类机器学习算法是人工智能发展的践行者，即使在当下，依然在数据挖掘以及小样本的人工智能问题中被广泛使用。机器学习集训营
想要学习更多机器学习内容，成功转行 AI ? 七月在线《机器学习集训营三期》本周开课，线上直播+线下实训，三个月从零到中高级机器学习工程师：适宜人群◆ 在校学生：对人工智能感兴趣，希望以后从事人工智能相关的工作；◆ 想转型的在职人士：不满足当前的工作，希望升级技能、通过本次学习转向热爱的人工智能领域；◆ 零基础也可以参与本课程的学习，提供老师答疑讲师团队

[b]寒小阳[/b]著名电商搜索广告负责人，多年实际ml/DL/dm项目经验，专注海量数据上机器学习算法的应用与优化。做过推荐系统、NLP、点击率预估、图像识别。讲课清晰易懂，擅长用实际数据、代码、案例说话，备受数千名学员好评。

林老师原BAT高级技术专家，更早时期先后任职于微软、EMC等，从事过操作系统、数据库和云存储相关产品的研发。擅长Python数据分析、爬虫。曾多次作为面试官参与BAT/EMC校招面试与出题，善于剖析leetcode经典题型、助人入门、提高。

David陈人大统计系数据挖掘与统计应用硕士，从事数据分析挖掘多年，开发过某金融公司量化自动交易系统。现为七月在线Python教学负责人，喜爱以数据去理解事物，擅长从零起步，一步步将复杂问题简单通俗阐述，备受广大学员欢迎。课程大纲第一阶段：零基础快速上手编程在线课程：1-基本python类型、判断与循环流程等在线实训：2-python基本练习题在线课程：3-文件/数据读写、面向对象、第三方库等在线实训：4-多种数据读写与面向对象练习线下实训：5-python基本练习题与 google python实战题
第二阶段：数据爬取得心应手在线课程：1-requests bs4解析静态网页和selenium解析动态网页在线实训：2-电商网站17huo和天气预报数据抓取、模拟百度关键字搜索在线课程：3-模拟登陆与scrapy爬虫框架使用在线实训：4-豆瓣电影数据抓取、创业邦投资机构数据抓取线下实训：5-新闻网站与链家网数据爬取（基于scrapy实现）
第三阶段：数据分析全攻略在线课程：1-pandas花式数据统计与分析技能在线实训：2-pandas综合练习在线课程：3-用pandas完成机器学习数据预处理与特征工程在线实训：4-pandas完成Kaggle机器学习预处理线下实训：5-美国大选、共享单车数据分析
第四阶段：可视化提升数据逼格技能get在线课程：1-好用的python可视化利器matplotlib在线实训：2-matplotlib完成Titanic和自行车租赁数据可视化在线课程：3-自带各种数据拟合分析的可视化利器seaborn在线实训：4-seaborn完成Titanic和自行车租赁数据可视化线下实训：5-美国大选、共享单车可视化技能巩固与实战
第五阶段：玩转大数据在线课程：1-hadoop与map-reduce在线实训：2-手写map-reduce完成词频统计，制作词云在线课程：3-Spark与大数据处理在线实训：4-Spark大数据日志分析线下实训：5-大数据分析处理案例
第六阶段：机器学习原理到实战在线课程：1-机器学习流程、预处理、特征工程在线实训：2-Kaggle机器学习比赛中的特征工程处理实战在线课程：3-模型评判标准与部分机器学习有监督算法在线实训：4-sklean接口熟悉与机器学习建模指导线下实训：5-sklearn建模与使用在线课程：6-机器学习有监督算法与无监督学习在线实训：7-sklearn刷Kaggle比赛题在线课程：8-机器学习集成算法与大杀器Xgboost/LightGBM在线实训：9-Xgboost与LightGBM使用在线课程：10-数据科学比赛精讲在线实训：11-数据科学比赛练习赛线下实训：12-集成算法与场景建模
第七阶段：深度学习原理到实战在线课程：1-深度神经网络、google wide&&deep模型、腾讯通用CTR神经网络框架与实现在线课程：2-卷积神经网络、caffe实战图像分类、Tensorflow实战图像风格变换实现在线课程：3-循环神经网络、Tensorflow实战情感分析与文本生成实现线下实训：4-Caffe&&Tensorflow实战
第八阶段：实际综合项目与就业指导线下实训：1-自然语言处理项目(文本数据抓取+spark/pandas数据分析+可视化+特征抽取+Sklearn/Spark机器学习建模+深度学习建模)线下实训：2-分类与推荐系统实战(音乐数据抓取+spark/pandas分析+可视化+协同过滤+隐语义模型+特征抽取分类建模)线下实训：3-图像项目(图像分类+图像检索)线下实训：4-机器学习面试辅导(面试注意点+常见面试考点精讲+简历指导+项目展示)

除了线上课程、线上+线下实训，还增加了阶段考核，保证你把所学真正转化为知识技能。课程结束前还会提供简历修改+一对一面试辅导。
还在等什么，AI 时代不容错过，点击文末“阅读原文”立即加入！客服微信：julyedukefu

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航