机器学习系列一 基础
2016-08-18 00:00
211 查看
本系列是我学习machine learning的总结和心得,现分享给大家.文章持续更新中.
数据集: 这组集合成为一个数据集
样本: 上述每个括号里的记录是一个关于西瓜的描述,称为样本
特征: 每个括号里的描述西瓜性质的项,如色泽, 根蒂, 敲声, 称为特征
属性值: 特征的值,如青绿, 蜷缩, 浊响, 称为属性值
样本空间: 每个括号里的特征合起来称为一个属性空间, 如(色泽, 根蒂, 敲声), 样本空间可以通过坐标轴x, y, z来张成一个三维空间, 每个西瓜由三个特征来描述, 且任意一个西瓜由三个特征值来唯一确定于该三维孔教的唯一坐标位置.
特征向量: 由于每个西瓜由三个属性唯一确定, 我们可以将特征用字母a, b, c来代替, 特征值可用数字1,2,3,…来代替, 于是一个由a,b,c组成的向量e=(a,b,c)就称为了一个特征向量.
学习: 通过训练, 从海量数据中习得模型的过程称为学习或训练.
训练数据: 训练模型所用的样本数据称为训练数据, 其中的每一个样本称为训练样本.
训练集: 多个训练样本组成的集合称为训练集.
假设: 由于模型本质上来讲, 是一种对某种潜在规律的抽象, 我们把训练模型中预测规律的过程称为假设, 注意,这里的假设是个动词.
真实(ground-truth): 上述假设过程中总结出来的潜在规律本身, 称为ground-truth.
学习器: 假设过程中总结出来的模型称为学习器(learner). 打个比方, 我们在OOP中定义:
上述OOP中,
标记: 给定多组样本时, 我们可以将其做一些分类, 例如
样例: 上述做了标记的样本
标记空间: 所有训练数据做完标记后的样例集合称为标记空间, 或称为输出空间.
分类: 假如待预测数据是离散的, 则将此类学习任务称为分类
回归: 假如待预测数据是连续的, 则将此类学习任务称为回归, 故, 区分学习或训练任务本身的唯一标识就是待训练数据本身是否连续.
学习阶段: 我们有一批训练集S1, 我们把得到模型或学习器的过程称为训练, 这是前置阶段, 得到模型后, 我们用另一批数据集S2对模型进行验证或测试, 数据集S2称为测试样本.
故目前为止, 我们可知,机器学习至少要经历训练->验证两个阶段.
(未完待续…)
一. 基本术语
假定我们收集一组关于西瓜的数据, 例如(色泽=青绿; 根蒂=蜷缩; 敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), …数据集: 这组集合成为一个数据集
样本: 上述每个括号里的记录是一个关于西瓜的描述,称为样本
特征: 每个括号里的描述西瓜性质的项,如色泽, 根蒂, 敲声, 称为特征
属性值: 特征的值,如青绿, 蜷缩, 浊响, 称为属性值
样本空间: 每个括号里的特征合起来称为一个属性空间, 如(色泽, 根蒂, 敲声), 样本空间可以通过坐标轴x, y, z来张成一个三维空间, 每个西瓜由三个特征来描述, 且任意一个西瓜由三个特征值来唯一确定于该三维孔教的唯一坐标位置.
特征向量: 由于每个西瓜由三个属性唯一确定, 我们可以将特征用字母a, b, c来代替, 特征值可用数字1,2,3,…来代替, 于是一个由a,b,c组成的向量e=(a,b,c)就称为了一个特征向量.
学习: 通过训练, 从海量数据中习得模型的过程称为学习或训练.
训练数据: 训练模型所用的样本数据称为训练数据, 其中的每一个样本称为训练样本.
训练集: 多个训练样本组成的集合称为训练集.
假设: 由于模型本质上来讲, 是一种对某种潜在规律的抽象, 我们把训练模型中预测规律的过程称为假设, 注意,这里的假设是个动词.
真实(ground-truth): 上述假设过程中总结出来的潜在规律本身, 称为ground-truth.
学习器: 假设过程中总结出来的模型称为学习器(learner). 打个比方, 我们在OOP中定义:
class Car(object): def __init__(self, feature): self.feature = feature pass bus = Car()
上述OOP中,
Car这个class可以认为是一个模型, 假设我们给定具体的训练数据, 即:
bus = Car("six-wheel"), 则
bus可等同地看作是一个学习器.
标记: 给定多组样本时, 我们可以将其做一些分类, 例如
((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜), 我们将对训练样本做初步分类, 将好瓜这样的信息称为标记.
样例: 上述做了标记的样本
(色泽=青绿;根蒂=蜷缩;敲声=浊响)称为一个样例.
标记空间: 所有训练数据做完标记后的样例集合称为标记空间, 或称为输出空间.
分类: 假如待预测数据是离散的, 则将此类学习任务称为分类
回归: 假如待预测数据是连续的, 则将此类学习任务称为回归, 故, 区分学习或训练任务本身的唯一标识就是待训练数据本身是否连续.
学习阶段: 我们有一批训练集S1, 我们把得到模型或学习器的过程称为训练, 这是前置阶段, 得到模型后, 我们用另一批数据集S2对模型进行验证或测试, 数据集S2称为测试样本.
故目前为止, 我们可知,机器学习至少要经历训练->验证两个阶段.
(未完待续…)
相关文章推荐
- 福利 | Intel发布AI免费系列课程3部曲:机器学习基础、深度学习基础以及TensorFlow基础
- 【机器学习系列之四】概率统计学习基础
- 机器学习系列02——机器学习基础
- 机器学习系列:(一)机器学习基础
- 机器学习系列2-机器学习基础
- [企业信息化大家学系列]ERP基础知识问答之常见名词解释
- Microsoft .Net Remoting系列专题之一:.Net Remoting基础篇
- 系统分析员备考之ISO9000系列基础篇I(ISO9000-2000基础)
- Microsoft .Net Remoting系列专题之一:.Net Remoting基础篇
- [导入]视频游戏开发系列课程(2):基础编程概念及C#简介
- [企业信息化大家学系列]ERP基础知识问答之BPR与ERP的关系
- 微软软件实现技术授课系列内容之五:软件测试基础
- 系统分析员备考之ISO9000系列基础篇II(质量认证基础)
- 数据库应用基础系列
- Microsoft .Net Remoting系列专题之一:.Net Remoting基础篇
- 病毒基础系列-API函数地址的获取
- 微软软件实现技术授课系列内容之五:软件测试基础
- 微软软件实现技术授课系列内容之五:软件测试基础
- 60系列平台基础
- 好书整理系列之-设计模式:可复用面向对象软件的基础 8