第一章 基本知识
2018-01-15 21:50
183 查看
前言:
机器学习这个领域其实在2017年国庆的时候就开始涉猎,从Andrew Ng的斯坦福 Machine Learning这门课入门,然后看了周志华的西瓜书(没看完),中间穿插的敲了一些《机器学习实战》上的代码。学了大概两个月,因为别的事后来搁浅了。现在回头看,很多东西当时学的比较急,没有消化透,而且整体上没有整理结构,使得知识不系统。现在是寒假,毕设暂时不吃紧,计划把这方面知识重新理一遍。
Andrew Ng的课很好,但是理论性太强,只凭听课记的笔记不是很好,可以参考的资料寥寥,打算之后再写。西瓜书比较浅显,各方面资料也比较多,方便我写的更系统。所以打算先从西瓜书的学习写起。
这段时间比较浮躁,心绪不宁。希望我可以坚持写完。
一、基本术语
数据集
样本\示例 属性\特征 属性值 属性空间
特征向量
维数
训练样本
训练集
从数据中学得模型的过程叫做“学习”或者“训练”。学得模型对应了数据某种潜在的规律,因此叫做“假设”,
这种潜在规律叫做“真相”。(真相是不可知的)我们的学习过程就是为了逼近真相。
例:
一批关于西瓜的数据:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)……这组记录的集合叫“数据集”,每条记录叫“实例”或“样本”。“色泽”、“根蒂”、“敲声”叫“属性”或特征“。如果把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则张成描述西瓜的三维空间,叫“属性空间”。我们把每个示例称为一个“特征向量”,对应属性空间的一个点。可以认为每个样本维数为3。 现在做一些改变。样本变成这样:((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),((色泽=乌黑;根蒂=稍蜷;敲声=沉闷),坏瓜)。这里的“好瓜”叫做标记(label)。有标记的样本叫做“样例”(example)。用(xi,yi)表示第i个样例。xi是特征向量,yi是xi的标记。设γ是所有标记集合,称为“标记空间”或“输出空间”。
如果我们根据根据训练集想要预测一个瓜是“好瓜”还是“坏瓜”,这是一个离散结果的预测。这类学习任务叫“分类”。类推,连续值预测,叫“回归”。
用来检测模型的样本叫“测试样本”。
再换一个任务,我们没有训练集,即事先不知道一些特征的瓜是好瓜还是坏瓜。所有的瓜在我们看来都是未知的。也就是均不带标记。我们就可以对这些未知样本进行“聚类”。分成若干组,一组叫一个“簇”。自动形成的簇对应一些潜在的概念划分。
所以综上:训练集样本有标记(分类,回归),这类学习任务叫“监督学习”,没有(聚类)则叫“无监督学习”。
学得的模型必须要适用于新样本。这种能力叫“泛化能力”。
通常我们假设样本空间全体样本服从一个未知分布D,样本“独立同分布”。所以一般而言,训练样本越多,得到的D的信息越多,模型泛化能力越强。
表1.1 西瓜数据集
如表一所示,这是一个训练集,假设空间很大。我们的目的是在大的假设空间里搜索到与训练集匹配的假设。但是显然对这个训练集,我们可以找到不止一个假设满足要求。
如:
是好瓜则属性满足:(色泽=*;根蒂=蜷缩;敲声=*);
也可以这样:(色泽=*;根蒂=*;敲声=浊响);
还可以是(色泽=*;根蒂=蜷缩;敲声=浊响);
*表示任意。
选择哪一个模型更好?这取决于机器学习算法的归纳偏好。比如“奥卡姆剃刀”原则。
最后有一个NFL定理,又叫“没有免费的午餐”定理。具体推导比较麻烦,主要说一下意思。就是像上面的三种假设,有些情况,一个假设与测试样本一致性好;某些情况,另一个假设更好。可以证明,在我们希望学习的真实目标函数f均匀分布时,任意算法学的模型与真相的误差期望是一样的。
也就是说你的算法再牛逼,别人瞎搞一个,你们俩的效果是一样的。是不是很绝望?但是注意NFL的前提:希望学习的真实目标函数f均匀分布。实际情况并非如此,也就是所有“问题”出现的机会不是相等的。所以必须针对具体的问题,再谈算法的优劣。
私以为没看懂无所谓,总之就是一句话:一切从实际出发。
机器学习这个领域其实在2017年国庆的时候就开始涉猎,从Andrew Ng的斯坦福 Machine Learning这门课入门,然后看了周志华的西瓜书(没看完),中间穿插的敲了一些《机器学习实战》上的代码。学了大概两个月,因为别的事后来搁浅了。现在回头看,很多东西当时学的比较急,没有消化透,而且整体上没有整理结构,使得知识不系统。现在是寒假,毕设暂时不吃紧,计划把这方面知识重新理一遍。
Andrew Ng的课很好,但是理论性太强,只凭听课记的笔记不是很好,可以参考的资料寥寥,打算之后再写。西瓜书比较浅显,各方面资料也比较多,方便我写的更系统。所以打算先从西瓜书的学习写起。
这段时间比较浮躁,心绪不宁。希望我可以坚持写完。
一、基本术语
数据集
样本\示例 属性\特征 属性值 属性空间
特征向量
维数
训练样本
训练集
从数据中学得模型的过程叫做“学习”或者“训练”。学得模型对应了数据某种潜在的规律,因此叫做“假设”,
这种潜在规律叫做“真相”。(真相是不可知的)我们的学习过程就是为了逼近真相。
例:
一批关于西瓜的数据:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)……这组记录的集合叫“数据集”,每条记录叫“实例”或“样本”。“色泽”、“根蒂”、“敲声”叫“属性”或特征“。如果把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则张成描述西瓜的三维空间,叫“属性空间”。我们把每个示例称为一个“特征向量”,对应属性空间的一个点。可以认为每个样本维数为3。 现在做一些改变。样本变成这样:((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),((色泽=乌黑;根蒂=稍蜷;敲声=沉闷),坏瓜)。这里的“好瓜”叫做标记(label)。有标记的样本叫做“样例”(example)。用(xi,yi)表示第i个样例。xi是特征向量,yi是xi的标记。设γ是所有标记集合,称为“标记空间”或“输出空间”。
如果我们根据根据训练集想要预测一个瓜是“好瓜”还是“坏瓜”,这是一个离散结果的预测。这类学习任务叫“分类”。类推,连续值预测,叫“回归”。
用来检测模型的样本叫“测试样本”。
再换一个任务,我们没有训练集,即事先不知道一些特征的瓜是好瓜还是坏瓜。所有的瓜在我们看来都是未知的。也就是均不带标记。我们就可以对这些未知样本进行“聚类”。分成若干组,一组叫一个“簇”。自动形成的簇对应一些潜在的概念划分。
所以综上:训练集样本有标记(分类,回归),这类学习任务叫“监督学习”,没有(聚类)则叫“无监督学习”。
学得的模型必须要适用于新样本。这种能力叫“泛化能力”。
通常我们假设样本空间全体样本服从一个未知分布D,样本“独立同分布”。所以一般而言,训练样本越多,得到的D的信息越多,模型泛化能力越强。
表1.1 西瓜数据集
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
如表一所示,这是一个训练集,假设空间很大。我们的目的是在大的假设空间里搜索到与训练集匹配的假设。但是显然对这个训练集,我们可以找到不止一个假设满足要求。
如:
是好瓜则属性满足:(色泽=*;根蒂=蜷缩;敲声=*);
也可以这样:(色泽=*;根蒂=*;敲声=浊响);
还可以是(色泽=*;根蒂=蜷缩;敲声=浊响);
*表示任意。
选择哪一个模型更好?这取决于机器学习算法的归纳偏好。比如“奥卡姆剃刀”原则。
最后有一个NFL定理,又叫“没有免费的午餐”定理。具体推导比较麻烦,主要说一下意思。就是像上面的三种假设,有些情况,一个假设与测试样本一致性好;某些情况,另一个假设更好。可以证明,在我们希望学习的真实目标函数f均匀分布时,任意算法学的模型与真相的误差期望是一样的。
也就是说你的算法再牛逼,别人瞎搞一个,你们俩的效果是一样的。是不是很绝望?但是注意NFL的前提:希望学习的真实目标函数f均匀分布。实际情况并非如此,也就是所有“问题”出现的机会不是相等的。所以必须针对具体的问题,再谈算法的优劣。
私以为没看懂无所谓,总之就是一句话:一切从实际出发。
相关文章推荐
- 第一章 驱动开发_驱动开发基本知识
- 第一章 Actionscript学习基本知识笔记及flashdevelop软件的安装问题
- KeilC51使用详解:第一章 Keil C51开发系统基本知识
- 第一章 基本知识 分类: java 2009-12-29 16:49 307人阅读 评论(0) 收藏
- 第一章 基本知识
- 第一章:执行计划基本知识
- 第一章:执行计划基本知识
- 第一章:执行计划基本知识--文本执行计划和XML执行计划
- 第一章:执行计划基本知识--范例入门
- POI实战-java开发excel详解(第一章 基本知识)
- 第一章:执行计划基本知识--文本执行计划和XML执行计划
- 第一章:执行计划基本知识--范例入门
- 第一章 语料库语言学基本知识
- 第一章:计算机系统的基本知识
- 《Linux Shell脚本攻略》读书笔记第一章 基本知识
- [经济生活基本知识]商品,货币,价值规律
- 基本网络知识
- (一)SQL基本知识
- QTP 自动化测试框架:第一章 基本框架介绍及主要思想
- 四旋翼飞行器基本知识(四旋翼飞行器结构和原理+四轴飞行diy全套入门教程)