Machine Learning 1---Introduction
2015-07-26 15:52
246 查看
机器学习的定义
关于机器学习(Machine Learning)有两个比较有名的定义,一个是Arthur Samuel在1959年定义的:Fieldof study that gives computers the ability to learn without being explicitly programmed.即不通过显示地编程,让计算机拥有学习能力的一个学科领域;另一个是Tom Mitchell在1998年给出的定义:A computer program is said to learn from experience E with
respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.即让一个计算机程序从任务T中去学习经验E,并且学习结果的好坏用P来衡量,并且学习到的经验E能够使得程序在任务T中的表现P得到改善。看起来很绕口,简单的表述即让计算机能够自动地对某个事件进行学习,获得经验从而使其在该事件中能有很好的表现。
机器学习的分类
机器学习(Machine Learning)一般来说可以分类为:Supervised Learning(监督学习)以及UnsupervisedLearning(非监督学习)。
区别在于:对于Supervised Learning(监督学习)给定一个正确的数据集,数据中的每个样本都有其相应的“正确答案”,它拥有一个明确的输入与输出,即对于训练样本我们总是知道其对应的输出是什么;而对于Unsupervised
Learning来说则是针对完全未知的数据,让算法自动地去分析数据,从中判断出某种规律。
Supervised Learning(监督学习)
其中Supervised Learning(监督学习)可以分为regression(回归问题),classification(分类)以及SVM(支持向量机)等。regression(回归)是指对于一组给定的数据,算法能够重建出一个模型预测一系列连续的输出值(continuousvalued output),即该模型算法得到的输出结果可以是无线多种可能的。比如一个典型的房价预测问题:
图-1 图片来自于吴恩达“机器学习”课程
有一组数据,是房子的面积以及其对应的价格,希冀从中学习出一个模型,能够通过房子的大小来预测出其对应的价格。可以判断的是其输出价格(price)是连续的,对于给定的一个面积有其对应的一个价格,这类问题便叫做regression。
classification(分类)则是指模型预测得出的输出值是离散的(discret valued output),即输出值是对应于某一个类型的。同理一个分类问题是:
图-2 图片来自于吴恩达“机器学习”课程
有一组关于肿瘤良性还是恶性的数据,这组数据包括患者年龄,肿瘤的大小以及肿瘤的良性与否,希冀学习出一个模型来判断某患者的肿瘤究竟是良性还是恶性。显然这个问题的输出是离散的,它要么是良性(图中的圆圈)要么是恶性(图中的叉),这类问题便叫做classification。
Unsupervised Learning(无监督学习)
而Unsupervised Learning则是对于完全未知的数据,这些数据并不存在输入与结果的对应,想要从中判断出某种规律,从而能够自动地进行数据的分析,最常见的便是聚类算法。一个很常见的例子是用Google新闻的时候,它会将新闻自动地进行聚类,高度相似的新闻会被放到一起。相关文章推荐
- Hbase总结(四)- Hbase与传统数据库的区别
- uva10561(博弈)
- 二维费用背包
- JSP之forward动作
- TreeSet里面放对象,如果同时放入了父类和子类的实例对象,那比较时使用的是父类的compareTo方法,还是使用的子类的compareTo方法,还是抛异常!
- Oracle12c功能增强新特性之维护&升级&恢复&数据泵等
- 新的Ubuntu系统中安装系统必备工具之中文输入法、tftp、nfs、VIM、ckermit
- Cube Simulation zoj3429 模拟
- HTML5基础19----XHTML的使用规范
- android-async-http框架
- [注]省时利器:代码美化与格式化工具
- hibernate和sleep的区别
- 推荐每个PROFIBUS网段内至多连接32个从设备
- HDU 1042 N!【大数】
- 论设计文档的重要性
- hdu 1000(A + B Problem)
- poj 1185 状态压缩dp(炮兵阵地)
- [基本实验] 远程文件包含
- 【SQL Server 2008 使用篇】无法连接到服务器
- 机房收费系统——上下机