您的位置:首页 > 编程语言 > Python开发

Python机器学习及实践——简介篇2

2017-08-05 12:42 387 查看
    这篇继续介绍一些概念。

    任务:

    机器学习的任务有很多,这里我们侧重于对两类经典的任务进行讲解和实践:监督学习和非监督学习。关于这两者的概念,不清楚的可以去看监督学习和非监督学习的区别

    这里补充一点非监督学习的内容,非监督学习常用的技术包括数据降维和聚类问题等。主要补充数据降维的概念,数据降维是对事物的特性进行压缩和筛选,这项任务相对比较抽象。如果我们没有特定的领域知识,是无法预先先确定采样哪些数据的;而如今,传感设备的采样成本相对较低,相反,筛选有效信息的成本更高。比如,在识别图像中人脸的任务中,我们可以直接读取到图像像素信息,若是直接使用这些像素信息,那么数据的维度会非常高,特别是在图像分辨率越来越高的今天。因此,我们通常会使用数据降维的技术对图像进行降维,保留最具有区分度的像素组合。

    经验:

    我们习惯性地把数据视作经验;事实上,只有那些对学习任务有用的特定信息才会被列入考虑范围。而我们通常把这些反映数据内在规律的信息叫做特征。比如前面提到的人脸图像识别任务中,我们很少直接把图像最原始的像素信息作为经验交给学习系统;而是通过降维,甚至一些更为复杂的数据处理方法得到更加有助于人脸识别的轮廓特征。

    对于监督学习问题,我们所拥有的经验包括特征和标记/目标两个部分。我们一般用一个特征向量来描述一个数据样本;标记/目标的表现形式则取决于监督学习的种类。

    无监督学习问题自然没有标记/目标,因此无法从事预测任务,却更适合对数据结构的分析。正是因为这个区别,我们经常可以获得大量的无监督数据;而监督数据的标注因为经常耗费大量的时间、金钱和人力,所以数据量相对较少。

   
性能:

    所谓性能,便是评价所完成任务质量的指标。为了评价学习模型完成任务的质量,我们需要具备相同特征的数据,并将模型的预测结果同相对应的正确答案进行比对。我们称这样的数据集为测试集。而且更为重要的是,我们需要保证,出现在测试集中的数据样本一定不能被用于模型训练。简而言之,训练集和测试集之间是互斥的。

    对于预测性质的问题,我们经常关注预测的精度。具体来讲:分类问题,我们要根据预测正确类别的百分比来评价其性能,这个指标通常被称作准确性;回归问题则无法使用类似的指标,我们通常会衡量预测值与实际值之间的偏差大小。

     下一篇就要结合具体python代码和烂大街的肿瘤预测问题了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 机器学习 ml