[数据挖掘] - 机器学习概述
2017-02-22 09:44
197 查看
机器学习主要是为了设计和分析一些让计算机可以自动"学习"的算法。即从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
定义:机器学习是对能通过经验自动改进的计算机算法的研究
机器学习主要分为两大类,分别是:监督学习和无监督学习;监督学习是指对于输入的训练集中既有特征(feature),也有标签(label),学习的过程是找出特征和标签间的关系(mapping);无监督学习是指输入训练集中只有特征(feature),学习的过程是从这些输入数据集中找出这些特征的共性(找出标签label),也就是聚类;监督学习主要包括两大类学习算法,分别为:统计分类和回归分析,具体算法包括:决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法等; 无监督学习也包括两大类型的学习算法,分别为:聚类和关联规则;具体算法包括:K-means、BIRCH、Apriori、C模糊聚类等
在机器学习算法中,通常将分类错误的样本数占总样本数的比率成为错误率(error rate),即如果在m个总样本中有a个样本是错误的,那么错误率E = a / m; 对应的, 1 - a / m 被成为精度;更一般的来讲,将预测输出和样本实际输出之间的差异称为“误差”,通常将训练集上的误差成为“训练误差”或“经验误差”,在新样本上的误差被称为“泛化误差”;由于泛化误差只有在新样本中才可以看到,在训练模型的过程中只能得到经验误差,一般而已,如果检验误差为0,这种模型不是最好的模型。实际上来讲,我们希望的到的模型是在新样本上具有比较低的泛化误差的模型,那么在这个模型的构造过程中,可能存在两个问题:过拟合和欠拟合;过拟合是指机器学习算法的学习能力太强,将训练集中数据本身的特征当做所有数据的一般特征了,这样导致泛化能力下降;欠拟合指机器学习算法的学习能力太弱,无法将训练集中的数据一般特性归纳到最终的结果模型中。
定义:机器学习是对能通过经验自动改进的计算机算法的研究
机器学习主要分为两大类,分别是:监督学习和无监督学习;监督学习是指对于输入的训练集中既有特征(feature),也有标签(label),学习的过程是找出特征和标签间的关系(mapping);无监督学习是指输入训练集中只有特征(feature),学习的过程是从这些输入数据集中找出这些特征的共性(找出标签label),也就是聚类;监督学习主要包括两大类学习算法,分别为:统计分类和回归分析,具体算法包括:决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法等; 无监督学习也包括两大类型的学习算法,分别为:聚类和关联规则;具体算法包括:K-means、BIRCH、Apriori、C模糊聚类等
在机器学习算法中,通常将分类错误的样本数占总样本数的比率成为错误率(error rate),即如果在m个总样本中有a个样本是错误的,那么错误率E = a / m; 对应的, 1 - a / m 被成为精度;更一般的来讲,将预测输出和样本实际输出之间的差异称为“误差”,通常将训练集上的误差成为“训练误差”或“经验误差”,在新样本上的误差被称为“泛化误差”;由于泛化误差只有在新样本中才可以看到,在训练模型的过程中只能得到经验误差,一般而已,如果检验误差为0,这种模型不是最好的模型。实际上来讲,我们希望的到的模型是在新样本上具有比较低的泛化误差的模型,那么在这个模型的构造过程中,可能存在两个问题:过拟合和欠拟合;过拟合是指机器学习算法的学习能力太强,将训练集中数据本身的特征当做所有数据的一般特征了,这样导致泛化能力下降;欠拟合指机器学习算法的学习能力太弱,无法将训练集中的数据一般特性归纳到最终的结果模型中。
相关文章推荐
- 利用Python进行机器学习和数据挖掘概述
- 利用Python进行机器学习和数据挖掘概述
- 人工智能、机器学习、数据挖掘、神经网络等学科的关系概述
- 数据挖掘、机器学习领域有哪些知名的期刊或会议?
- 2014 百度笔试 机器学习及数据挖掘
- 机器学习、数据挖掘方面的一些牛人站点
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- 加州理工学院公开课:机器学习与数据挖掘_Kernal Method(第十五课)
- 机器学习和数据挖掘推荐书单
- 人工智能、机器学习、模式识别、数据挖掘、自然语言处理
- 数据挖掘概述
- 数据挖掘过程概述
- 数据挖掘相关的机器学习知识汇总(不断更新)
- 机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率和模糊逻辑的常见问题解答
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 机器学习 数据挖掘知识点总结大纲
- 机器学习和数据挖掘快问快答
- 非常全面到位的介绍与源代码地址 :Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- 数据挖掘与机器学习 WEKA 应用技术与实践
- 机器学习和数据挖掘在个性化推荐系统中的应用