机器学习概念
2015-08-27 13:35
281 查看
机器学习概念:简单地说,机器学习就是把无序的数据转换成有用的信息
监督学习(suervised learning):
一般使用两种类型的目标变量:标称型和数值型
标称型:目标变量的结果只在有限目标集中取值
数值型:目标变量可以从无限的数值集合中取值
机器学习首先需要做的就是算法训练,即学习如何分类。通常为算法输入大量已分类数据作为算法的训练集。
训练集:用于训练机器学习算法的数据样本集合
目标变量:机器学习算法的训练结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。
训练样本必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系
机器学习主要任务有:分类问题 回归问题
分类问题:主要任务是将实例数据划分到合适的分类中。
回归问题:主要用于预测数值型数据。
分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测社么,即目标变量的分类信息。
与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。
在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。
无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。
用于执行分类/回归/聚类和密度估计的机器学习算法
#################################################################
如何选择合适的算法
考虑两个问题:
一.使用机器学习算法的目的,想要算法完成何种任务
二.需要分析或收集的数据是社么
考虑使用机器学习算法的目的:
如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。
确定选择监督学习算法后,需要进一步确定目标变量类型:如果目标变量是离散型,则可以选择分类算法;如果目标变量是连续型的数值,则需要选择回归算法。
确定选择无监督学习算法后,进一步分析是否需要将数据划分为离散的组:如果这是唯一要求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法
分析数据:
主要了解数据的以下特性:特征值是离散型变量还是连续型变量,
特征值中是否存在缺失的值,
何种原因造成缺失值,
数据中是否存在异常值 等等
监督学习(suervised learning):
一般使用两种类型的目标变量:标称型和数值型
标称型:目标变量的结果只在有限目标集中取值
数值型:目标变量可以从无限的数值集合中取值
机器学习首先需要做的就是算法训练,即学习如何分类。通常为算法输入大量已分类数据作为算法的训练集。
训练集:用于训练机器学习算法的数据样本集合
目标变量:机器学习算法的训练结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。
训练样本必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系
机器学习主要任务有:分类问题 回归问题
分类问题:主要任务是将实例数据划分到合适的分类中。
回归问题:主要用于预测数值型数据。
分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测社么,即目标变量的分类信息。
与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。
在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。
无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。
监督学习的用途 | |
k-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权现行回归 |
支持向量机 | Ridge回归 |
决策树 | Lasso最小回归系数估计 |
无监督学习的用途 | |
K-均值 | 最大期望算法 |
DBSCAN | Parzen窗设计 |
如何选择合适的算法
考虑两个问题:
一.使用机器学习算法的目的,想要算法完成何种任务
二.需要分析或收集的数据是社么
考虑使用机器学习算法的目的:
如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。
确定选择监督学习算法后,需要进一步确定目标变量类型:如果目标变量是离散型,则可以选择分类算法;如果目标变量是连续型的数值,则需要选择回归算法。
确定选择无监督学习算法后,进一步分析是否需要将数据划分为离散的组:如果这是唯一要求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法
分析数据:
主要了解数据的以下特性:特征值是离散型变量还是连续型变量,
特征值中是否存在缺失的值,
何种原因造成缺失值,
数据中是否存在异常值 等等
相关文章推荐
- nodejs初印象
- mysql启动 等
- 二维码的扫描和生成
- HDU4687 (一般图匹配)
- Objective-C JSON操作
- java jdbc数据库操作
- ZOJ 3751 Diagonal
- jxl访问tomcat得到Tomcat性能数据
- Maven
- 初学THINKPHP,感觉很强大
- 华为OJ(简单密码破解)
- Implicit intents with startService are not safe错误的解决方式
- 读程序员的自我修养应该弄懂的问题
- tomcat设置web根目录
- 中山纪念中学2015年暑假集训总结
- ffmpeg视频格式转化及flv格式截图
- 如何在 Docker 容器中运行 Kali Linux 2.0
- velocity
- C语言Log记录调试
- 设置多行多列图标的循环体