您的位置:首页 > 其它

第一章 基本知识

2018-01-15 21:50 183 查看
前言:
  机器学习这个领域其实在2017年国庆的时候就开始涉猎,从Andrew Ng的斯坦福 Machine Learning这门课入门,然后看了周志华的西瓜书(没看完),中间穿插的敲了一些《机器学习实战》上的代码。学了大概两个月,因为别的事后来搁浅了。现在回头看,很多东西当时学的比较急,没有消化透,而且整体上没有整理结构,使得知识不系统。现在是寒假,毕设暂时不吃紧,计划把这方面知识重新理一遍。
  Andrew Ng的课很好,但是理论性太强,只凭听课记的笔记不是很好,可以参考的资料寥寥,打算之后再写。西瓜书比较浅显,各方面资料也比较多,方便我写的更系统。所以打算先从西瓜书的学习写起。
  这段时间比较浮躁,心绪不宁。希望我可以坚持写完。
一、基本术语
数据集
样本\示例 属性\特征 属性值 属性空间  
特征向量
维数 
训练样本
训练集 
从数据中学得模型的过程叫做“学习”或者“训练”。学得模型对应了数据某种潜在的规律,因此叫做“假设”,
这种潜在规律叫做“真相”。(真相是不可知的)我们的学习过程就是为了逼近真相。
例:
一批关于西瓜的数据:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)……这组记录的集合叫“数据集”,每条记录叫“实例”或“样本”。“色泽”、“根蒂”、“敲声”叫“属性”或特征“。如果把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则张成描述西瓜的三维空间,叫“属性空间”。我们把每个示例称为一个“特征向量”,对应属性空间的一个点。可以认为每个样本维数为3。 现在做一些改变。样本变成这样:((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),((色泽=乌黑;根蒂=稍蜷;敲声=沉闷),坏瓜)。这里的“好瓜”叫做标记(label)。有标记的样本叫做“样例”(example)。用(xi,yi)表示第i个样例。xi是特征向量,yixi的标记。设γ是所有标记集合,称为“标记空间”或“输出空间”。
  如果我们根据根据训练集想要预测一个瓜是“好瓜”还是“坏瓜”,这是一个离散结果的预测。这类学习任务叫“分类”。类推,连续值预测,叫“回归”。
  用来检测模型的样本叫“测试样本”。
  再换一个任务,我们没有训练集,即事先不知道一些特征的瓜是好瓜还是坏瓜。所有的瓜在我们看来都是未知的。也就是均不带标记。我们就可以对这些未知样本进行“聚类”。分成若干组,一组叫一个“簇”。自动形成的簇对应一些潜在的概念划分。
  所以综上:训练集样本有标记(分类,回归),这类学习任务叫“监督学习”,没有(聚类)则叫“无监督学习”。
 
学得的模型必须要适用于新样本。这种能力叫“泛化能力”。
通常我们假设样本空间全体样本服从一个未知分布D,样本“独立同分布”。所以一般而言,训练样本越多,得到的D的信息越多,模型泛化能力越强。
表1.1 西瓜数据集
编号
色泽
根蒂
敲声
好瓜
1
青绿
蜷缩
浊响

2
乌黑
蜷缩
浊响

3
青绿
硬挺
清脆

4
乌黑
稍蜷
沉闷

 
如表一所示,这是一个训练集,假设空间很大。我们的目的是在大的假设空间里搜索到与训练集匹配的假设。但是显然对这个训练集,我们可以找到不止一个假设满足要求。
如:
是好瓜则属性满足:(色泽=*;根蒂=蜷缩;敲声=*);
也可以这样:(色泽=*;根蒂=*;敲声=浊响);
还可以是(色泽=*;根蒂=蜷缩;敲声=浊响);
*表示任意。
选择哪一个模型更好?这取决于机器学习算法的归纳偏好。比如“奥卡姆剃刀”原则。
最后有一个NFL定理,又叫“没有免费的午餐”定理。具体推导比较麻烦,主要说一下意思。就是像上面的三种假设,有些情况,一个假设与测试样本一致性好;某些情况,另一个假设更好。可以证明,在我们希望学习的真实目标函数f均匀分布时,任意算法学的模型与真相的误差期望是一样的。
  也就是说你的算法再牛逼,别人瞎搞一个,你们俩的效果是一样的。是不是很绝望?但是注意NFL的前提:希望学习的真实目标函数f均匀分布。实际情况并非如此,也就是所有“问题”出现的机会不是相等的。所以必须针对具体的问题,再谈算法的优劣。
  私以为没看懂无所谓,总之就是一句话:一切从实际出发。
 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: