第一章—— 绪论知识点概括和习题详解
2017-07-19 09:23
183 查看
基本概念
1.每一条记录是一个示例,共同组成数据集。 示例具有属性(特征),属性的取值为属性值,所有示例的可能属性取值组成属性空间。每一个属性的各项取值可以组成一个坐标向量,所以可以把示例成为特征向量。
2.从数据中学的模型的过程为学习或者训练,通过执行某一个算法来完成。过程本身的目的就是实现贴近现实的假设。
3.样例是拥有标注的示例。
4.共两类学习任务:分类和回归。
5.归纳:特殊到一般,得出普适性的性质
演绎:一般到特殊,根据已有的规律推测单一(特殊)样本的规律。
6.假设空间和版本空间
假设空间:全部假设。每种属性在考虑的时候需要考虑空集,最后还要加一个空集。
版本空集:从假设中删除两种示例,和正例不一致,和反例一致。
7.归纳偏好:算法在学习过程中对某种类型假设的偏好。
8.若有多个假设与观察一致,则选择最简单的那个。
习题
1.表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。
这道题共3个属性,每个属性共有两种取值,所以答案为3^3+1=28,但这样求出的是假设空间。接下来我们需要删除和正例不一致,以及和反例一致的示例。
以下为特征(偷懒,排列摘自其他人的blog,判断为本人所做):
1.色泽=青绿 根蒂=蜷缩 敲声=浊响y
2.色泽=青绿 根蒂=蜷缩 敲声=沉闷n
3.色泽=青绿 根蒂=稍蜷 敲声=浊响n
4.色泽=青绿 根蒂=稍蜷 敲声=沉闷n
5.色泽=乌黑 根蒂=蜷缩 敲声=浊响n
6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷n
7.色泽=乌黑 根蒂=稍蜷 敲声=浊响n
8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷n
9.色泽=青绿 根蒂=蜷缩 敲声=*y
10.色泽=青绿 根蒂=稍蜷 敲声=*n
11.色泽=乌黑 根蒂=蜷缩 敲声=*n
12.色泽=乌黑 根蒂=稍蜷 敲声=*n
13.色泽=青绿 根蒂=* 敲声=浊响y
14.色泽=青绿 根蒂=* 敲声=沉闷n
15.色泽=乌黑 根蒂=* 敲声=浊响n
16.色泽=乌黑 根蒂=* 敲声=沉闷n
17.色泽=* 根蒂=蜷缩 敲声=浊响y
18.色泽=* 根蒂=蜷缩 敲声=沉闷n
19.色泽=* 根蒂=稍蜷 敲声=浊响n
20.色泽=* 根蒂=稍蜷 敲声=沉闷n
21.色泽=青绿 根蒂=* 敲声=*y
22.色泽=乌黑 根蒂=* 敲声=*n
23.色泽=* 根蒂=蜷缩 敲声=*y
24.色泽=* 根蒂=稍蜷 敲声=*n
25.色泽=* 根蒂=* 敲声=浊响y
26.色泽=* 根蒂=* 敲声=沉闷n
27.色泽=* 根蒂=* 敲声=*
28.空集Ø
从里面开始进行删除。最后剩下了7个示例。
析取式:用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式
合取式:用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式
析合范式是析取的合取式。
答案网址: http://blog.csdn.net/icefire_tyh/article/details/52065626
只是先了解了概念性的东西,具体的代码过程还需要接着花时间去看。
自己的理解:不一致不代表不相似,只要找到最相似的分到一类问题就解决了。
网上的思路:除了上述方法,还有一个简单粗暴的,就是将属性相似但是不同分类的示例都去掉,那么剩下的自然就是分界鲜明的两类示例,比对属性相似程度,进行分组。但这种方法,个人认为除了降低标准度,增大误差以外,还可能造成新的示例无法进行分类的情况。可能之前与之相似的示例都已经被删除了。
之后的题目先都全部略过。
1.每一条记录是一个示例,共同组成数据集。 示例具有属性(特征),属性的取值为属性值,所有示例的可能属性取值组成属性空间。每一个属性的各项取值可以组成一个坐标向量,所以可以把示例成为特征向量。
2.从数据中学的模型的过程为学习或者训练,通过执行某一个算法来完成。过程本身的目的就是实现贴近现实的假设。
3.样例是拥有标注的示例。
4.共两类学习任务:分类和回归。
5.归纳:特殊到一般,得出普适性的性质
演绎:一般到特殊,根据已有的规律推测单一(特殊)样本的规律。
6.假设空间和版本空间
假设空间:全部假设。每种属性在考虑的时候需要考虑空集,最后还要加一个空集。
版本空集:从假设中删除两种示例,和正例不一致,和反例一致。
7.归纳偏好:算法在学习过程中对某种类型假设的偏好。
8.若有多个假设与观察一致,则选择最简单的那个。
习题
1.表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。
这道题共3个属性,每个属性共有两种取值,所以答案为3^3+1=28,但这样求出的是假设空间。接下来我们需要删除和正例不一致,以及和反例一致的示例。
以下为特征(偷懒,排列摘自其他人的blog,判断为本人所做):
1.色泽=青绿 根蒂=蜷缩 敲声=浊响y
2.色泽=青绿 根蒂=蜷缩 敲声=沉闷n
3.色泽=青绿 根蒂=稍蜷 敲声=浊响n
4.色泽=青绿 根蒂=稍蜷 敲声=沉闷n
5.色泽=乌黑 根蒂=蜷缩 敲声=浊响n
6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷n
7.色泽=乌黑 根蒂=稍蜷 敲声=浊响n
8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷n
9.色泽=青绿 根蒂=蜷缩 敲声=*y
10.色泽=青绿 根蒂=稍蜷 敲声=*n
11.色泽=乌黑 根蒂=蜷缩 敲声=*n
12.色泽=乌黑 根蒂=稍蜷 敲声=*n
13.色泽=青绿 根蒂=* 敲声=浊响y
14.色泽=青绿 根蒂=* 敲声=沉闷n
15.色泽=乌黑 根蒂=* 敲声=浊响n
16.色泽=乌黑 根蒂=* 敲声=沉闷n
17.色泽=* 根蒂=蜷缩 敲声=浊响y
18.色泽=* 根蒂=蜷缩 敲声=沉闷n
19.色泽=* 根蒂=稍蜷 敲声=浊响n
20.色泽=* 根蒂=稍蜷 敲声=沉闷n
21.色泽=青绿 根蒂=* 敲声=*y
22.色泽=乌黑 根蒂=* 敲声=*n
23.色泽=* 根蒂=蜷缩 敲声=*y
24.色泽=* 根蒂=稍蜷 敲声=*n
25.色泽=* 根蒂=* 敲声=浊响y
26.色泽=* 根蒂=* 敲声=沉闷n
27.色泽=* 根蒂=* 敲声=*
28.空集Ø
从里面开始进行删除。最后剩下了7个示例。
2.与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。
析取式:用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式合取式:用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式
析合范式是析取的合取式。
答案网址: http://blog.csdn.net/icefire_tyh/article/details/52065626
只是先了解了概念性的东西,具体的代码过程还需要接着花时间去看。
3.若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择
自己的理解:不一致不代表不相似,只要找到最相似的分到一类问题就解决了。网上的思路:除了上述方法,还有一个简单粗暴的,就是将属性相似但是不同分类的示例都去掉,那么剩下的自然就是分界鲜明的两类示例,比对属性相似程度,进行分组。但这种方法,个人认为除了降低标准度,增大误差以外,还可能造成新的示例无法进行分类的情况。可能之前与之相似的示例都已经被删除了。
之后的题目先都全部略过。
相关文章推荐
- 数据结构(c++版)(第2版)第一章:绪论的知识点总结图,制作者:信管1134-28
- 数据结构习题——第一章 绪论
- 数据库系统原理教程 第一章 绪论 习题解答
- 数据库系统原理教程 第一章 绪论 习题解答
- 《机器学习》-周志华 第一章 绪论 习题1.2
- 习题答案探讨 - 《机器学习》周志华 - 第一章 绪论
- 机器学习(周志华) 第一章-绪论 习题解答
- 数据结构(c++版)第一章绪论知识点总结图(物联网工程1131-10)
- 1、数据结构习题——第一章 绪论
- 数据结构(c++版)(第2版)第一章:绪论的知识点总结图,制作者:物联1131-22
- 第一章 绪论(及部分课后习题)
- 第一章 绪论习题
- 第一章 绪论习题参考答案
- 数据结构(c++版)(第2版)第一章:绪论的知识点总结图,制作者:物联网1131-18 .
- 数据结构习题——第一章 绪论
- 数据结构 第一章 绪论 思维导图
- objective-c 基础语法和习题 / 类 详解
- HTML5中canvas知识点详解8-绘制文字
- Java各个知识点详解总结
- 第一章C++习题