您的位置:首页 > 其它

Machine Learning 1---Introduction

2015-07-26 15:52 246 查看

机器学习的定义

        关于机器学习(Machine Learning)有两个比较有名的定义,一个是Arthur Samuel在1959年定义的:Field
of study that gives computers the ability to learn without being explicitly programmed.即不通过显示地编程,让计算机拥有学习能力的一个学科领域;另一个是Tom Mitchell在1998年给出的定义:A computer program is said to learn from experience E with
respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.即让一个计算机程序从任务T中去学习经验E,并且学习结果的好坏用P来衡量,并且学习到的经验E能够使得程序在任务T中的表现P得到改善。看起来很绕口,简单的表述即让计算机能够自动地对某个事件进行学习,获得经验从而使其在该事件中能有很好的表现。

机器学习的分类

       机器学习(Machine Learning)一般来说可以分类为:Supervised Learning(监督学习)以及Unsupervised
Learning(非监督学习)。
区别在于:对于Supervised Learning(监督学习)给定一个正确的数据集,数据中的每个样本都有其相应的“正确答案”,它拥有一个明确的输入与输出,即对于训练样本我们总是知道其对应的输出是什么;而对于Unsupervised
Learning来说则是针对完全未知的数据,让算法自动地去分析数据,从中判断出某种规律。

Supervised Learning(监督学习)

        其中Supervised Learning(监督学习)可以分为regression(回归问题),classification(分类)以及SVM(支持向量机)等。regression(回归)是指对于一组给定的数据,算法能够重建出一个模型预测一系列连续的输出值(continuous
valued output),即该模型算法得到的输出结果可以是无线多种可能的。比如一个典型的房价预测问题:



                                                                                       图-1 图片来自于吴恩达“机器学习”课程
        有一组数据,是房子的面积以及其对应的价格,希冀从中学习出一个模型,能够通过房子的大小来预测出其对应的价格。可以判断的是其输出价格(price)是连续的,对于给定的一个面积有其对应的一个价格,这类问题便叫做regression。
        classification(分类)则是指模型预测得出的输出值是离散的(discret valued output),即输出值是对应于某一个类型的。同理一个分类问题是:



                                                                                       图-2 图片来自于吴恩达“机器学习”课程
        有一组关于肿瘤良性还是恶性的数据,这组数据包括患者年龄,肿瘤的大小以及肿瘤的良性与否,希冀学习出一个模型来判断某患者的肿瘤究竟是良性还是恶性。显然这个问题的输出是离散的,它要么是良性(图中的圆圈)要么是恶性(图中的叉),这类问题便叫做classification。

Unsupervised Learning(无监督学习)        

        而Unsupervised Learning则是对于完全未知的数据,这些数据并不存在输入与结果的对应,想要从中判断出某种规律,从而能够自动地进行数据的分析,最常见的便是聚类算法。一个很常见的例子是用Google新闻的时候,它会将新闻自动地进行聚类,高度相似的新闻会被放到一起。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: