您的位置:首页 > 其它

机器学习(1)——基本概念

2017-12-11 09:08 369 查看
转载自: http://blog.csdn.net/daigualu


一、名词解释

数据集(data set) 

记录的集合,假如我们用3个特征,分别为色泽,根蒂,响声来描述西瓜的特点,并且拿到了基于这3个特征的10万条记录,其中一条记录的取值为: 色泽=光亮,根蒂=坚硬,响声=清亮 

如果记录到.csv文件中,这个文件的结构可以记为: fruit[100000][3] ,这样一个二维数组,行数为10万,列数为3(因为有3个特征)。

示例(instance) 

每条记录是关于一个事件或对象的描述,也称为样本,比如以上其中一条记录 

色泽=光亮,根蒂=坚硬,响声=清亮 

这个看做是一个实例

属性(attribute) 

反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂,响声等,又称为特征(feature)。属性上的取值,如青绿,浊响等,称为属性值(attribute value)。

样本空间(sample space) 

又称为属性空间(attribute space),或输入空间。它可以理解为训练数据中实际出现的所有属性值构成的集合空间,如上文中提到的10万条西瓜记录,每条记录有3个属性取值,组成了一个fruit[100000][3] 的样本空间。和它有点类似的一个概念叫做假设空间(hypothetical space),它是理论上的所有可能属性值构成的集合空间。

特征向量(feature vector) 

假如将色泽,根蒂,敲声三个属性作为三个坐标轴x1, x2, x3,每个西瓜对应一个空间点(一个坐标向量),每个这种示例称为一个特征向量,记为 (x1, x2, x3 )

维数(dimensionality) 

每个示例包含的属性个数,如上文中提到的描述西瓜的3个特征色泽,根蒂,响声,这个10万行的数据集的维数是3,这是机器学习中需要理解的重要概念。

标记(label) 

关于示例结果的信息,比如判断一个西瓜是好瓜,那么这个西瓜便拥有了标记示例,这个西瓜便成了样例(example)。一般用 Xi , yi 表示第 i 个样例,其中 yi 是示例 Xi 的标记。

学习(learning) 

从数据中学得模型的过程,又称为训练(training)。正如上文所示,10万条西瓜数据集,根据它的三个特征,和每条特征的标记,经过计算最后得到了一个 f,通过这个 f 我们能预测第1万零一个西瓜是否是好瓜,这个过程被称为学习。

训练数据 (training data) 

训练过程中使用的数据,其中每个样本称为一个训练样本(training sample),训练样本组成的集合称为训练集(training set)。通过这些训练数据通过学习,最终得出一个f,也就是我们学到的模型。与之相对应的是测试数据,为了测试通过训练数据得到的f准确度能高不高,我们特意预留出一些数据用来专门测试用,这部分数据就被称为测试数据。

二、一些概念

回归(regression) 

如果预测的是连续值,例如预测西瓜的成熟度 ,它必然是个大于0的小数值,比如成熟度为0.9,0.75,抑或是根据房屋面积,使用年限两个特征预测某个房屋的价值,类似这种预测称为回归。回归有些不好理解,可以理解为拟合吧,根据已有数据集,得到一条曲线f,然后再来一个Xm,带到 f 中,得到ym 。

分类(classification) 

如果我们要预测的是离散值,等于0,1,2,3等这类离散值,例如 好瓜,坏瓜,称此类学习任务为分类。如果分类的结果为两类,又称此分类为二分类,通常称其中一个为正类(positive class),另一个为反类(negative class)。它还有一个很奇怪的名字,叫逻辑回归,虽然是带着回归二字,实际是分类,注意此处。

聚类(clustering) 

没有标记的记录集,并且我们还想学习这类数据集,比如想从里头挖出点有用的东西来。然后我们根据某些特征和算法将训练中的西瓜分成若干组,自动形成了几簇,这些簇可能对应一些潜在的概念,比如浅色瓜,深色瓜,本地瓜,这些概念我们都是事先不知道的。聚类的常用的算法自己查阅吧,资料有很多。

泛化能力(generalization)学得的模型适用于新样本的能力。引起泛化能力不足的一个原因是过拟合,过
4000
拟合导致在测试集上变现非常好,但是在新来的数据集上表现非常差。





归纳偏好(inductive bias),机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法生成确定的学习结果。


归纳偏好的例子

如果我们在购买某个股票时假定根据两个主要特征:股票经纪公司等级和股票最近3个月的涨幅情况,进而判断是否购买某只股。

假定股票经纪公司等级取值为3种:A等,B等,C等,不要忘记还要考虑到一种特殊取值 *,即公司等级取ABC中哪个值这个股票我都要买(也就是说这个特征对于我是否买这只股是无关紧要的);

股票最近3个月的涨幅情况取值为2种:涨,降,取值哪个都合适 *。

那么根据这两个特征和特征取值,并且股票的标签 y 取值为买或不买,因此我们可以得到一个由12种类型的假设组成的假设空间,如下所示:
1. A等   涨
2. A等   降
3. A等    *
4. B等   涨
5. B等   降
6. B等   *
7. C等    涨
8. C等    降
9. C等   *
10. *   涨
11. *   降
12. *   *


根据由3条股票的记录组成的训练集,如下所示:
A等   涨     买
B等   涨      买
C等   降     不买


根据这3条训练记录,得出了其中两个与训练集一致的假设,这两个假设组成的空间称为样本空间(version space):
1.  *   涨    买
2. C等   *    不买


以上两个假设都能使得3条训练集成立,也就是说只要涨我们就买股票,只要是C等,我们就不买股票,并且我们的机器学习算法对股票经纪公司等级和股票最近3个月的涨幅情况这两个特征没有任何偏好,如果没有归纳偏好,就会出现同一只股票的预测有时该买,有时不该买的情况。

接下来,来了一只股票,其特征值为 C等 涨,如果随机选取了第一个假设,我们判断要买,但是如果我们选取了第二个假设,我们判断不能买。一回买一回不买,显然我们制定的这个机器学习算法失灵了。

解决的办法,要么制定特征的归纳偏好,如果偏向于股票经纪公司等级,觉得这个特征更重要,那么我们买;

要么进来更多的训练数据,消除12种假设中的11个,只留下唯一的一个。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习