您的位置：首页 > 其它

第一章基本知识

2018-01-15 21:50 183 查看

前言：
机器学习这个领域其实在2017年国庆的时候就开始涉猎，从Andrew Ng的斯坦福 Machine Learning这门课入门，然后看了周志华的西瓜书（没看完），中间穿插的敲了一些《机器学习实战》上的代码。学了大概两个月，因为别的事后来搁浅了。现在回头看，很多东西当时学的比较急，没有消化透，而且整体上没有整理结构，使得知识不系统。现在是寒假，毕设暂时不吃紧，计划把这方面知识重新理一遍。
Andrew Ng的课很好，但是理论性太强，只凭听课记的笔记不是很好，可以参考的资料寥寥，打算之后再写。西瓜书比较浅显，各方面资料也比较多，方便我写的更系统。所以打算先从西瓜书的学习写起。
这段时间比较浮躁，心绪不宁。希望我可以坚持写完。
一、基本术语
数据集
样本\示例属性\特征属性值属性空间
特征向量
维数
训练样本
训练集
从数据中学得模型的过程叫做“学习”或者“训练”。学得模型对应了数据某种潜在的规律，因此叫做“假设”，
这种潜在规律叫做“真相”。（真相是不可知的）我们的学习过程就是为了逼近真相。
例：
一批关于西瓜的数据：（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷）……这组记录的集合叫“数据集”，每条记录叫“实例”或“样本”。“色泽”、“根蒂”、“敲声”叫“属性”或特征“。如果把“色泽”、“根蒂”、“敲声”作为三个坐标轴，则张成描述西瓜的三维空间，叫“属性空间”。我们把每个示例称为一个“特征向量”，对应属性空间的一个点。可以认为每个样本维数为3。现在做一些改变。样本变成这样：（（色泽=青绿；根蒂=蜷缩；敲声=浊响），好瓜），（（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），坏瓜）。这里的“好瓜”叫做标记（label)。有标记的样本叫做“样例”(example)。用(xi,yi)表示第i个样例。xi是特征向量，yi是xi的标记。设γ是所有标记集合，称为“标记空间”或“输出空间”。
  如果我们根据根据训练集想要预测一个瓜是“好瓜”还是“坏瓜”，这是一个离散结果的预测。这类学习任务叫“分类”。类推，连续值预测，叫“回归”。
  用来检测模型的样本叫“测试样本”。
  再换一个任务，我们没有训练集，即事先不知道一些特征的瓜是好瓜还是坏瓜。所有的瓜在我们看来都是未知的。也就是均不带标记。我们就可以对这些未知样本进行“聚类”。分成若干组，一组叫一个“簇”。自动形成的簇对应一些潜在的概念划分。
  所以综上：训练集样本有标记（分类，回归），这类学习任务叫“监督学习”，没有（聚类）则叫“无监督学习”。

学得的模型必须要适用于新样本。这种能力叫“泛化能力”。
通常我们假设样本空间全体样本服从一个未知分布D,样本“独立同分布”。所以一般而言，训练样本越多，得到的D的信息越多，模型泛化能力越强。
表1.1 西瓜数据集

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍蜷	沉闷	否

如表一所示，这是一个训练集，假设空间很大。我们的目的是在大的假设空间里搜索到与训练集匹配的假设。但是显然对这个训练集，我们可以找到不止一个假设满足要求。
如：
是好瓜则属性满足：（色泽=*；根蒂=蜷缩；敲声=*）；
也可以这样：（色泽=*；根蒂=*；敲声=浊响）；
还可以是（色泽=*；根蒂=蜷缩；敲声=浊响）；
*表示任意。
选择哪一个模型更好？这取决于机器学习算法的归纳偏好。比如“奥卡姆剃刀”原则。
最后有一个NFL定理，又叫“没有免费的午餐”定理。具体推导比较麻烦，主要说一下意思。就是像上面的三种假设，有些情况，一个假设与测试样本一致性好；某些情况，另一个假设更好。可以证明，在我们希望学习的真实目标函数f均匀分布时，任意算法学的模型与真相的误差期望是一样的。
也就是说你的算法再牛逼，别人瞎搞一个，你们俩的效果是一样的。是不是很绝望？但是注意NFL的前提：希望学习的真实目标函数f均匀分布。实际情况并非如此，也就是所有“问题”出现的机会不是相等的。所以必须针对具体的问题，再谈算法的优劣。
私以为没看懂无所谓，总之就是一句话：一切从实际出发。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

第一章 基本知识

第一章基本知识