您的位置:首页 > 其它

[置顶] 统计学习方法--笔记1

2018-04-07 16:09 232 查看

1.2 监督学习

输入变量和输出变量均为连续:回归问题
输出变量离散的为分类问题
输入变量和输出变量均为变量序列的为标注问题
标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列,即分类-》一个值,标注-》一个向量监督学习的目的:在于学习一个由输入到输出的映射,这一映射由模型表示


1.3  统计学习三要素

方法=模型+策略+算法

模型:就是所要学习的条件概率分布或决策函数。

策略:使用什么准则学习或选择最优模型
    损失函数(风险函数):度量预测错误的程度,非负数值函数
            0-1损失函数
            平方损失函数
            绝对损失函数
            对数损失函数(对数似然损失函数):-logP(Y|X)
        风险函数或期望损失就是损失函数的期望,学习的目标就是选择期望风险最小的模型
        模型f(X)关于训练数据集的平均损失称为经验风险(经验损失)    经验风险最小化 和 结构风险最小化
    经验风险最小:最优模型 如极大似然估计,但是当样本小的时候,会出现过拟合    结构风险最小化SRM:为了防止过拟合提出 ==等价于正则化
    就在经验风险上加上表示模型复杂度的正则化项或罚项,J(f)为模型复杂度,模型越复杂,J(f)越大
算法:学习模型的具体计算方法


1.4 过拟合

    过拟合:一味追求提高对训练数据的预测能力。指学习时选择的模型多包涵参数过多
    模型越复杂,训练误差越小,测试误差会先减小后增大

1.5 正则化

        结构风险最小化的实现,加入罚项      交叉验证
    训练集:训练模型
    验证集:选择模型
    测试集:评估模型
        简单交叉验证
        S折交叉验证
        留一交叉验证:S=N的S折交叉验证

1.6 泛化能力


    泛化能力是指由该方法学习到的模型对未知数据的预测能力。
    主要是通过测试误差来评价学习方法的泛化能力。
    泛化误差上界有两部分相加组成:1.训练误差,正相关性 2.N的单调递减函数


1.7 生成模型与判别模型

    监督学习方法又可以分为 生成方法 判别方法
    所学到的模型分别叫做 生成模型 与 判别模型 。    生成方法是有数据学习联合概率分布,然后求P(Y|X)
        典型的生成模型有:朴素贝叶斯和隐马尔可夫模型
   
    判别方法由数据直接学习决策函数或者P(Y|X)作为预测的模型
    判别分析关心的是对给定的X,应该预测怎样的Y
        典型的判别模型:k邻近、决策树、最大熵模型、SVM、提升方法、条件随机场、逻辑斯蒂回归模型    区别:
    1. 生成方法可以还原联合概率分布P(X,Y),判别不能
    2. 生成方法学习收敛速度更快,样本容量增加的时候,学习的模型能够更快的收敛于真是模型
    3. 当存在隐变量的时候,可以用生成方法,判别不能    4. 直接学习决策函数或者P(Y|X)作为预测的模型,精确率更高
    5. 判别方法可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题


1.8 分类问题

    精准率与召回率

    TP:T->T
    FN:T->F
    FP:F->T
    TN:F->F
    准确率:TP+TN/ALL
    精准率:P=TP/(TP+FP)
    召回率:R=TP/(TP+FN)
    F1值:上面两个的调和平均:2/F1=1/P+1/R    学习方法:k近邻、感知机、朴素贝叶斯、神经网络、Winnow

1.9 标注问题

    分类问题的推广:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列    统计学习方法:隐马尔科夫模型、条件随机场    举个例子:给一个单词组成的英文句,分析每个单词的词性

1.10 回归问题

    用于预测输入变量和输出变量之间的关系,等价于函数拟合
    按照输入变量的个数,分为一元回归和多元回归
    按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归    损失函数为平方损失函数,可由最小二乘法来解决
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: