Logistic 回归线性回归-概率分析
2014-06-01 16:49
1626 查看
本文参照Andrew Ng的机器学习课程讲义和jerryLead的学习笔记整理而成,如有不足,请指出,谢谢~
在描述Logistic回归之前,我们先要讨论下线性回归(linear regression)。
线性回归假设特征和结果满足线性关系。那什么是回归呢?回归其实就是对已知公式的未知参数进行估计。如
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/0b06a7c6eca3f98564d98678e3b5d11a)
,其中x是参数(特征),用实际已存在的样本
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/4f636dbb79025880539c7a9b657dfad4)
估计出θ的值,(θ为参数),令
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/e5006a63cd80d3f139b62aa876632adb)
,有
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/3410c1b52a451fd3ed433e7ce464e6b6)
。
我们得到了h(x),但却不知道h函数能否有效的表示出真实情况,因此需要对h函数进行评估,得到损失函数(cost function):
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/1d3d3bb3948af627b32fa18426ca7be8)
为什么要选择J(θ)这样的形式作为损失函数呢?我们用概率的角度分析下:
假设预测结果和实际偏差为ε则
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/04599c4b138b55f0de1479cdba2f2c9c)
;
一般假设误差ε为均值为0的正态分布,则x,y的概率分布如下:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/87e98a00c7dba9f1f272ea8cb7d7670d)
我们期待的是h(x)预测最准,也就是求最大似然函数最大,因此对最大似然估计公式求导,求导结果是
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/7c943c5e71d99202af6770b7ca886675)
由上知,当J(θ)取得最小值的时候就是最佳回归,求解的算法有很多,最小二乘法、梯度下降法等等。
梯度下降法是按下面的流程进行的:
1)首先对θ赋值,这个值可以是随机的,也可以让θ是一个全零的向量。
2)改变θ的值,使得 J(θ)按梯度下降的方向进行减少。
最终求得为:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/86f3f5ce050d7e7650da431c0313a0bf)
简述完线性回归,再聊下Logistic回归;
对数回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把
特征线性求和,然后使用函数 g(z)将最为假设函数来预测。g(z)可以将连续值映射到 0 和 1上。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/36d8df9a10d18f02f6c78c00455c293a)
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/f483a42402abd975236388a6dff3fcf3)
同样,这里为什么选择g(z)(sigmoid函数)这样的形式呢?同样以概率的角度讨论下:
首先要引入一般概率模型;那什么是一般概率模型呢?
伯努利分布bernoulli(Φ),高斯分布
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/f6039fb17e2f6e7ea6a499d6af8c4346)
当改变Φ或者μ的值,伯努利分布和高斯分布就会发生改变,不同的Φ和μ就形成了分布族;这些分布都是指数分布族的特例,如果一个概率分布可以表示成
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/92125a39fb8140ece9234086ab6b5785)
这就是一般概率模型。
η:称为特性(自然)参数(natural parameter)
T(y):充分统计量(sufficient statistic)通常T(y)=y;
固定a、b、T,那么就定义了一个概率分布的集合。
Logistic回归时采用的是伯努利分布,伯努利分布的概率可以表示成
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/f86ba950e1979a7592fb3183128b3773)
Logistic回归用来分类 0/1 问题,也就是预测结果属于 0 或者 1 的二值分类问题。这里假设满足伯努利分布,也就是:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/2bf7ddb3ae9882acd8e6cbcb85597fb7)
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/31d3c339073a3a02a9da37d7246ef42d)
我们可以合并下写成:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/f3e7179a618f662d303807377f7e71a6)
然后求参数的似然函数:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/f36dd766edd9ce207ce24b05a890cf4a)
取对数,得到:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/c2f67401ec44d7be5ad724445b6e82cc)
求导,然后更新θ
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/128e2e0f166dc062767a54395ff3d8a6)
可以看到Logistic回归与线性回归是类似,只是
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/106726c111aa69e567e831e665a94d7b)
换成了
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/0e6248ec418c2d8afb9f7a02d69da776)
,而
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/0e6248ec418c2d8afb9f7a02d69da776)
实际上就是
![](https://oscdn.geek-share.com/Uploads/Images/Content/202009/14/106726c111aa69e567e831e665a94d7b)
经过g(z)映射过来的。Logistic回归本质就是线性回归。
在描述Logistic回归之前,我们先要讨论下线性回归(linear regression)。
线性回归假设特征和结果满足线性关系。那什么是回归呢?回归其实就是对已知公式的未知参数进行估计。如
,其中x是参数(特征),用实际已存在的样本
估计出θ的值,(θ为参数),令
,有
。
我们得到了h(x),但却不知道h函数能否有效的表示出真实情况,因此需要对h函数进行评估,得到损失函数(cost function):
为什么要选择J(θ)这样的形式作为损失函数呢?我们用概率的角度分析下:
假设预测结果和实际偏差为ε则
;
一般假设误差ε为均值为0的正态分布,则x,y的概率分布如下:
我们期待的是h(x)预测最准,也就是求最大似然函数最大,因此对最大似然估计公式求导,求导结果是
由上知,当J(θ)取得最小值的时候就是最佳回归,求解的算法有很多,最小二乘法、梯度下降法等等。
梯度下降法是按下面的流程进行的:
1)首先对θ赋值,这个值可以是随机的,也可以让θ是一个全零的向量。
2)改变θ的值,使得 J(θ)按梯度下降的方向进行减少。
最终求得为:
简述完线性回归,再聊下Logistic回归;
对数回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把
特征线性求和,然后使用函数 g(z)将最为假设函数来预测。g(z)可以将连续值映射到 0 和 1上。
同样,这里为什么选择g(z)(sigmoid函数)这样的形式呢?同样以概率的角度讨论下:
首先要引入一般概率模型;那什么是一般概率模型呢?
伯努利分布bernoulli(Φ),高斯分布
当改变Φ或者μ的值,伯努利分布和高斯分布就会发生改变,不同的Φ和μ就形成了分布族;这些分布都是指数分布族的特例,如果一个概率分布可以表示成
这就是一般概率模型。
η:称为特性(自然)参数(natural parameter)
T(y):充分统计量(sufficient statistic)通常T(y)=y;
固定a、b、T,那么就定义了一个概率分布的集合。
Logistic回归时采用的是伯努利分布,伯努利分布的概率可以表示成
Logistic回归用来分类 0/1 问题,也就是预测结果属于 0 或者 1 的二值分类问题。这里假设满足伯努利分布,也就是:
我们可以合并下写成:
然后求参数的似然函数:
取对数,得到:
求导,然后更新θ
可以看到Logistic回归与线性回归是类似,只是
换成了
,而
实际上就是
经过g(z)映射过来的。Logistic回归本质就是线性回归。
相关文章推荐
- §1 一对多线性回归分析的数学模型
- 分类器设计之logistic回归分析(含Matlab代码)
- 线性回归 Linear regression(3) 线性回归的概率解释
- Logistic回归分析时几个需要注意的问题
- 数据分析---线性回归
- 利用matlab中的函数进行线性回归分析
- 机器学习算法的Python实现 (1):logistics回归 与 线性判别分析(LDA)
- 线性回归概率解释(Linear Regression)
- PRML读书会第四章 Linear Models for Classification(贝叶斯marginalization、Fisher线性判别、感知机、概率生成和判别模型、逻辑回归)
- 【机器学习算法】之线性回归分析
- Andrew NG 机器学习听课笔记(2)——过学习与欠学习,最小二乘的概率意义、logistic回归
- 线性回归分析
- 从一道概率题联想到的logistic 回归
- 简单线性回归分析【笔记】
- 回归分析之线性回归
- 统计编程的框架与R语言统计分析基础——摘(2)统计分析之线性回归
- Spark MLlib之线性回归源码分析
- 线性回归分析中的哑变量
- 在PostgreSQL中用线性回归分析linear regression做预测 - 例子1
- 【机器学习详解】线性回归、梯度下降、最小二乘的几何和概率解释