您的位置：首页 > 其它

机器学习概念

2015-08-27 13:35 281 查看

机器学习概念：简单地说，机器学习就是把无序的数据转换成有用的信息

监督学习（suervised learning）：

一般使用两种类型的目标变量：标称型和数值型

标称型：目标变量的结果只在有限目标集中取值

数值型：目标变量可以从无限的数值集合中取值

机器学习首先需要做的就是算法训练，即学习如何分类。通常为算法输入大量已分类数据作为算法的训练集。

训练集：用于训练机器学习算法的数据样本集合

目标变量：机器学习算法的训练结果，在分类算法中目标变量的类型通常是标称型的，而在回归算法中通常是连续型的。

训练样本必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系

机器学习主要任务有：分类问题回归问题

分类问题：主要任务是将实例数据划分到合适的分类中。

回归问题：主要用于预测数值型数据。

分类和回归属于监督学习，之所以称之为监督学习，是因为这类算法必须知道预测社么，即目标变量的分类信息。

与监督学习相对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。

在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程被称为聚类；将寻找描述数据统计值的过程称之为密度估计。

无监督学习还可以减少数据特征的维度，以便我们可以使用二维或三维图形更加直观地展示数据信息。

用于执行分类/回归/聚类和密度估计的机器学习算法

监督学习的用途
k-近邻算法	线性回归
朴素贝叶斯算法	局部加权现行回归
支持向量机	Ridge回归
决策树	Lasso最小回归系数估计
无监督学习的用途
K-均值	最大期望算法
DBSCAN	Parzen窗设计

#################################################################

如何选择合适的算法

考虑两个问题：

一.使用机器学习算法的目的，想要算法完成何种任务

二.需要分析或收集的数据是社么

考虑使用机器学习算法的目的：

如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。

确定选择监督学习算法后，需要进一步确定目标变量类型：如果目标变量是离散型，则可以选择分类算法；如果目标变量是连续型的数值，则需要选择回归算法。

确定选择无监督学习算法后，进一步分析是否需要将数据划分为离散的组：如果这是唯一要求，则使用聚类算法；如果还需要估计数据与每个分组的相似程度，则需要使用密度估计算法

分析数据：

主要了解数据的以下特性：特征值是离散型变量还是连续型变量，

特征值中是否存在缺失的值，

何种原因造成缺失值，

数据中是否存在异常值等等

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航