第一章 绪论(及部分课后习题)
2017-07-07 20:13
405 查看
1.1 引言
机器学习是一门这样的学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,所以,我们需要从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。1.2 基本术语
数据集
一组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。属性(特征)
反映事件或对象在某方面的表现或性质的事项,属性上的取值称为属性值。属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。把每个属性展开成多维空间,然后每个坐标位置都可以在空间中找到。由于每个空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”。维数
标记、样例
关于“预测”的模型,我们需要获得训练样本的“结果信息”,例如“((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”。这里,例如“好瓜”,称为“标记”;拥有了标记信息的示例,则称为“样例”。分类
若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为分类。对只涉及两个类别的“二分类”,通常称其中一个类为“正类”,另一类称为反类。测试
学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为“测试样本”。例如在学得f后,对测试例x,可得到其预测标记y=f(x).聚类、簇
还是举西瓜的例子,对西瓜做“聚类”,即将训练集中的西瓜分成若干组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”。但是在聚类学习中,上述的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。监督学习、无监督学习
这个是根据训练数据是否拥有标记信息,分类和回归是“监督学习”的代表,聚类则是“无监督学习”的代表。泛化
学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中全体样本服从一个未知“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。1.3 假设空间
归纳与演绎
归纳是从特殊到一般的“泛化”过程。演绎则是从一般到特殊的“特化”过程。“从样例中学习”显然是一个归纳的过程,因此也成为“归纳学习”。这又分为狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此也成为“概念学习”或“概念形成”。但是这种学习应用较少,因为要学得泛化性能好且语义明确的概念实在太困难了。布尔概念学习
概念学习中最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0和1布尔值的目标概念学习。以一个西瓜的数据集为例版本空间
现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”。西瓜问题对应的版本空间如图:1.4 归纳偏好
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
习题1.1
若表1.1中只包含编号为1和4的两个样例,试给出相应的版本空间。
版本空间是所有与训练集一致的子集。
以数据集4为例:
(色泽=乌黑;根蒂=*;敲声=*) (色泽=*;根蒂=*;敲声=沉闷) (色泽==*;根蒂=稍蜷;敲声=*) (色泽=乌黑;根蒂=稍蜷;敲声=*) (色泽=乌黑;根蒂=*;敲声=沉闷) (色泽=*;根蒂=稍蜷;敲声=沉闷) (色泽=乌黑;根蒂=稍蜷;敲声=沉闷) (色泽=*;根蒂=*;敲声=*)
习题1.2
若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。
首先,以上一题的合取式为例,共有8个合取范式,每个范式取或不取会有两种情况,所以共有2的8次方-1中情况。
习题1.3
若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
数据噪声是指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。
所以如果数据量比较大,我们可以适当的删除掉这些数据,而数据量比较小的时候,就需要放宽一些范围,而保留这些数据。
相关文章推荐
- 《计算机网络》第七版第一章总结及部分课后习题答案
- 计算机网络第一章概述笔记及部分课后习题
- 数据结构与算法分析(java语言描述) 部分课后习题答案 第一章
- 鸟哥的Linux私房菜基础学习篇(第二版)第一章课后习题与答案
- 《C语言的科学与艺术》课后习题答案第五章(部分)1
- 《组合数学引论》第一章部分习题解答
- 编程珠玑第2章部分课后习题答案注解
- 第一章 绪论习题
- c++Primer学习笔记之四:第一章课后习题
- 谭浩强 c++程序设计第一章课后习题 第7题
- 绪论(3)--周志华机器学习学习笔记与课后习题
- 《C语言的科学与艺术》课后习题答案第四章(部分)
- 数据结构与算法分析(C++语言版)_张琨版 第一章课后习题答案
- 1、数据结构习题——第一章 绪论
- 周志华《机器学习》课后习题解答系列(二):Ch1 - 绪论
- 第一章 绪论习题参考答案
- 谭浩强 c++程序设计第一章课后习题 第10题
- 【数据库系统概念部分习题】第一章 引言
- 《C语言的科学与艺术》课后习题答案第六章(部分)
- 第一章 Linux概述课后习题