您的位置:首页 > 其它

第一章—— 绪论知识点概括和习题详解

2017-07-19 09:23 183 查看
基本概念

1.每一条记录是一个示例,共同组成数据集。 示例具有属性(特征),属性的取值为属性值,所有示例的可能属性取值组成属性空间。每一个属性的各项取值可以组成一个坐标向量,所以可以把示例成为特征向量。

2.从数据中学的模型的过程为学习或者训练,通过执行某一个算法来完成。过程本身的目的就是实现贴近现实的假设。

3.样例是拥有标注的示例。

4.共两类学习任务:分类和回归。

5.归纳:特殊到一般,得出普适性的性质

演绎:一般到特殊,根据已有的规律推测单一(特殊)样本的规律。

6.假设空间和版本空间

假设空间:全部假设。每种属性在考虑的时候需要考虑空集,最后还要加一个空集。

版本空集:从假设中删除两种示例,和正例不一致,和反例一致。

7.归纳偏好:算法在学习过程中对某种类型假设的偏好。

8.若有多个假设与观察一致,则选择最简单的那个。

习题

1.表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间

这道题共3个属性,每个属性共有两种取值,所以答案为3^3+1=28,但这样求出的是假设空间。接下来我们需要删除和正例不一致,以及和反例一致的示例。

以下为特征(偷懒,排列摘自其他人的blog,判断为本人所做):

1.色泽=青绿 根蒂=蜷缩 敲声=浊响y
2.色泽=青绿 根蒂=蜷缩 敲声=沉闷n
3.色泽=青绿 根蒂=稍蜷 敲声=浊响n
4.色泽=青绿 根蒂=稍蜷 敲声=沉闷n
5.色泽=乌黑 根蒂=蜷缩 敲声=浊响n
6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷n
7.色泽=乌黑 根蒂=稍蜷 敲声=浊响n

8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷n
9.色泽=青绿 根蒂=蜷缩 敲声=*y
10.色泽=青绿 根蒂=稍蜷 敲声=*n
11.色泽=乌黑 根蒂=蜷缩 敲声=*n
12.色泽=乌黑 根蒂=稍蜷 敲声=*n
13.色泽=青绿 根蒂=* 敲声=浊响y
14.色泽=青绿 根蒂=* 敲声=沉闷n
15.色泽=乌黑 根蒂=* 敲声=浊响n
16.色泽=乌黑 根蒂=* 敲声=沉闷n
17.色泽=* 根蒂=蜷缩 敲声=浊响y
18.色泽=* 根蒂=蜷缩 敲声=沉闷n
19.色泽=* 根蒂=稍蜷 敲声=浊响n
20.色泽=* 根蒂=稍蜷 敲声=沉闷n
21.色泽=青绿 根蒂=* 敲声=*y
22.色泽=乌黑 根蒂=* 敲声=*n
23.色泽=* 根蒂=蜷缩 敲声=*y
24.色泽=* 根蒂=稍蜷 敲声=*n
25.色泽=* 根蒂=* 敲声=浊响y
26.色泽=* 根蒂=* 敲声=沉闷n
27.色泽=* 根蒂=* 敲声=*
28.空集Ø

从里面开始进行删除。最后剩下了7个示例。


2.与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。

析取式:用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式

合取式:用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式

析合范式是析取的合取式。

答案网址: http://blog.csdn.net/icefire_tyh/article/details/52065626
只是先了解了概念性的东西,具体的代码过程还需要接着花时间去看。


3.若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择

自己的理解:不一致不代表不相似,只要找到最相似的分到一类问题就解决了。
网上的思路:除了上述方法,还有一个简单粗暴的,就是将属性相似但是不同分类的示例都去掉,那么剩下的自然就是分界鲜明的两类示例,比对属性相似程度,进行分组。但这种方法,个人认为除了降低标准度,增大误差以外,还可能造成新的示例无法进行分类的情况。可能之前与之相似的示例都已经被删除了。

之后的题目先都全部略过。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: