第一天开始学习机器学习 慢慢进步
2018-02-09 10:42
288 查看
看周志华《机器学习》的第1,2章,了解分类、交叉验证、分类精度、检验等概念
分类:预测的是离散值1.[Classify;Assort]按照种类、等级或性质分别归类。2.把无规律的事物分为有规律的,按照不同的特点划分事物,使事物更有规律。3.建立生物类别的分级系统的实践,其基础是推测生物间存在著一些自然关系。生物分类的科学一般称为分类学(Taxonomy)。
交叉验证:交叉验证(Cross Validation),有的时候也称作循环估计(RotationEstimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predictedError Sum of Squares)。
分类精度:
检验:
校验(ECC)是数据传送时采用的一种校正数据错误的一种方式,分为奇校验和偶校验两种。
1.1表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
数据集是有三个特征,分别是色泽,根蒂,敲声来判断是否是好瓜。
只有1,4可得 色泽青绿,根蒂蜷缩,敲声浊响是好瓜;色泽乌黑,根蒂稍蜷,敲声沉闷不是好瓜。三个特征值排列组合得到的集合共有3*3*3=27后再加上空集情况为28种集合。
色泽=青绿 根蒂=蜷缩 敲声=浊响
色泽=青绿 根蒂=蜷缩 敲声=泛化取值
色泽=青绿 根蒂=泛化取值 敲声=浊响
色泽=泛化取值 根蒂=蜷缩 敲声=浊响
色泽=青绿 根蒂=泛化取值 敲声=泛化取值
色泽=泛化取值 根蒂=蜷缩 敲声=泛化取值
色泽=泛化取值 根蒂=泛化取值 敲声=浊响
数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。在线分类理想的数据环境应具备以下几个特点:
(1)数据应包含丰富的属性信息,应具备可靠性和稳定性;
(2)数据的属性应具有对于分类任务的相关性。大多数的分类任务只与数据库中部分属性有关,多余的、无关的属性介入分类,常会减慢甚至错误引导分类过程,应此必须去掉无关属性。
(3)数据应具有高层数据信息,以发现清晰的、高层的、具有统计意义的分类规则。在本文的研究中,为了使数据环境达到上述要求,在数据准备阶段采用了数据泛化的策略,这个策略用概念层次作为背景,结合了OLAP技术与Jiawei Han等人的面向属性归纳的方法,明显提高了工作效率。
1.2与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。
因为使用的是1.1中西瓜分类的假设空间,所以这就有了4个样例,每个样例有3个特征值。所以得到3*4*4=48后加上空集泛化得到49种。
分类:预测的是离散值1.[Classify;Assort]按照种类、等级或性质分别归类。2.把无规律的事物分为有规律的,按照不同的特点划分事物,使事物更有规律。3.建立生物类别的分级系统的实践,其基础是推测生物间存在著一些自然关系。生物分类的科学一般称为分类学(Taxonomy)。
交叉验证:交叉验证(Cross Validation),有的时候也称作循环估计(RotationEstimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predictedError Sum of Squares)。
分类精度:
检验:
校验(ECC)是数据传送时采用的一种校正数据错误的一种方式,分为奇校验和偶校验两种。
1.1表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
数据集是有三个特征,分别是色泽,根蒂,敲声来判断是否是好瓜。
只有1,4可得 色泽青绿,根蒂蜷缩,敲声浊响是好瓜;色泽乌黑,根蒂稍蜷,敲声沉闷不是好瓜。三个特征值排列组合得到的集合共有3*3*3=27后再加上空集情况为28种集合。
色泽=青绿 根蒂=蜷缩 敲声=浊响
色泽=青绿 根蒂=蜷缩 敲声=泛化取值
色泽=青绿 根蒂=泛化取值 敲声=浊响
色泽=泛化取值 根蒂=蜷缩 敲声=浊响
色泽=青绿 根蒂=泛化取值 敲声=泛化取值
色泽=泛化取值 根蒂=蜷缩 敲声=泛化取值
色泽=泛化取值 根蒂=泛化取值 敲声=浊响
数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。在线分类理想的数据环境应具备以下几个特点:
(1)数据应包含丰富的属性信息,应具备可靠性和稳定性;
(2)数据的属性应具有对于分类任务的相关性。大多数的分类任务只与数据库中部分属性有关,多余的、无关的属性介入分类,常会减慢甚至错误引导分类过程,应此必须去掉无关属性。
(3)数据应具有高层数据信息,以发现清晰的、高层的、具有统计意义的分类规则。在本文的研究中,为了使数据环境达到上述要求,在数据准备阶段采用了数据泛化的策略,这个策略用概念层次作为背景,结合了OLAP技术与Jiawei Han等人的面向属性归纳的方法,明显提高了工作效率。
1.2与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。
因为使用的是1.1中西瓜分类的假设空间,所以这就有了4个样例,每个样例有3个特征值。所以得到3*4*4=48后加上空集泛化得到49种。
相关文章推荐
- 开始学习Python了,每天都要有进步啊
- 开始学习springboot的第一天
- 第一天开始,记录自己的学习历程
- 微博开启的第一天,也开始记录了我学习的每一天
- 开始java正式学习第一天
- 开始学习springboot的第一天
- C/C++学习开始第一天
- C++学习第一天小结(东西比较杂 因为还没开始正式系统学习 只是通过例子了解到的各个杂知识点)
- 第一天开始学习蓝牙技术
- 开始学习机器学习!
- 第一天入住CSDN,希望在这里和大家共同学习,共同进步~!
- 这是我第一天开始学习《算法导论》!
- 开始学习springboot的第一天
- [置顶] 学习java记录博客开始第一天
- 开始学习qtp第一天对象库添加和检查点的添加
- python学习开始第一天 CSDN博客之旅开始第一天
- 转:jQuery框架学习第一天:开始认识jQuery
- 开始学习springboot的第一天
- JAVA开始,学习,进步,积累
- 第一天,开始系统学习