您的位置:首页 > 其它

机器学习系列一 基础

2016-08-18 00:00 211 查看
本系列是我学习machine learning的总结和心得,现分享给大家.文章持续更新中.

一. 基本术语

假定我们收集一组关于西瓜的数据, 例如(色泽=青绿; 根蒂=蜷缩; 敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), …

数据集: 这组集合成为一个数据集

样本: 上述每个括号里的记录是一个关于西瓜的描述,称为样本

特征: 每个括号里的描述西瓜性质的项,如色泽, 根蒂, 敲声, 称为特征

属性值: 特征的值,如青绿, 蜷缩, 浊响, 称为属性值

样本空间: 每个括号里的特征合起来称为一个属性空间, 如(色泽, 根蒂, 敲声), 样本空间可以通过坐标轴x, y, z来张成一个三维空间, 每个西瓜由三个特征来描述, 且任意一个西瓜由三个特征值来唯一确定于该三维孔教的唯一坐标位置.

特征向量: 由于每个西瓜由三个属性唯一确定, 我们可以将特征用字母a, b, c来代替, 特征值可用数字1,2,3,…来代替, 于是一个由a,b,c组成的向量e=(a,b,c)就称为了一个特征向量.

学习: 通过训练, 从海量数据中习得模型的过程称为学习或训练.

训练数据: 训练模型所用的样本数据称为训练数据, 其中的每一个样本称为训练样本.

训练集: 多个训练样本组成的集合称为训练集.

假设: 由于模型本质上来讲, 是一种对某种潜在规律的抽象, 我们把训练模型中预测规律的过程称为假设, 注意,这里的假设是个动词.

真实(ground-truth): 上述假设过程中总结出来的潜在规律本身, 称为ground-truth.

学习器: 假设过程中总结出来的模型称为学习器(learner). 打个比方, 我们在OOP中定义:

class Car(object):
def __init__(self, feature):
self.feature = feature
pass
bus = Car()


上述OOP中,
Car
这个class可以认为是一个模型, 假设我们给定具体的训练数据, 即:
bus = Car("six-wheel")
, 则
bus
可等同地看作是一个学习器.

标记: 给定多组样本时, 我们可以将其做一些分类, 例如
((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)
, 我们将对训练样本做初步分类, 将好瓜这样的信息称为标记.

样例: 上述做了标记的样本
(色泽=青绿;根蒂=蜷缩;敲声=浊响)
称为一个样例.

标记空间: 所有训练数据做完标记后的样例集合称为标记空间, 或称为输出空间.

分类: 假如待预测数据是离散的, 则将此类学习任务称为分类

回归: 假如待预测数据是连续的, 则将此类学习任务称为回归, 故, 区分学习或训练任务本身的唯一标识就是待训练数据本身是否连续.

学习阶段: 我们有一批训练集S1, 我们把得到模型或学习器的过程称为训练, 这是前置阶段, 得到模型后, 我们用另一批数据集S2对模型进行验证或测试, 数据集S2称为测试样本.
故目前为止, 我们可知,机器学习至少要经历训练->验证两个阶段.

(未完待续…)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习