广义线性模型
2016-07-21 22:51
260 查看
今天我来介绍一种在机器学习中应用的比较多的模型,叫做广义线性模型(GLM)。这种模型是把自变量的线性预测
函数当作因变量的估计值。在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵
模型,Logistic回归,softmax回归,等等。今天主要来学习如何来针对某类型的分布建立相应的广义线性模型。
Contents
1. 广义线性模型的认识
2. 常见概率分布的认识
1. 广义线性模型的认识
首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下
其中
为自然参数,它可能是一个向量,而
叫做充分统计量,也可能是一个向量,通常来说
。
实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量
服从高斯分布,那么
得到的是线性最小二乘回归,当随机变量
服从伯努利分布,则得到的是Logistic回归。
那么如何根据指数分布族来构建广义线性模型呢? 首先以如下三个假设为基础
(1)给定特征属性
和参数
后,
的条件概率
服从指数分布族,即
。
(2)预测
的期望,即计算
。
(3)
与
之间是线性的,即
。
在讲解利用广义线性模型推导最小二乘和Logistic回归之前,先来认识一些常见的分布,这是后面的基础。
2. 常见概率分布的认识
(1)高斯分布
关于高斯分布的内容我就不再多讲了,如果把它看成指数分布族,那么有
对比一下指数分布族,可以发现
所以高斯分布实际上也是属于指数分布族,线性最小二乘就是基于高斯分布的。
(2)伯努利分布
伯努利分布又叫做两点分布或者0-1分布,是一个离散型概率分布,若伯努利实验成功,则伯努利随机变
量取值为1,如果失败,则伯努利随机变量取值为0。并记成功的概率为
,那么失败的概率就是
,
所以得到其概率密度函数为
如果把伯努利分布写成指数分布族,形式如下
对比指数分布族,有
Logistic回归就是基于伯努利分布的,之前的Sigmoid函数,现在我们就可以知道它是如何来的了。如下
如果
那么
叫做正则响应函数,而
叫做正则关联函数。
(3)泊松分布
泊松分布是一种离散型概率分布,其随机变量
只能取非负整数值0,1,2,... 且其概率密度函数为
其中参数
是泊松分布的均值,也是泊松分布的方差,表示单位时间内随机事件的平均发生率。在实际
的实例中,近似服从泊松分布的事件有:某电话交换台收到的呼叫,某个网站的点击量,来到某个公共
汽车站的乘客,某放射性物质发射出的粒子,显微镜下某区域内的白血球等计数问题。
泊松分布的内容:http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88
关于概率论中的分布主要介绍这几个,其中还有很多分布都属于指数分布族,比如伽马分布,指数分布,多
元高斯分布,Beta分布,Dirichlet分布,Wishart分布等等。根据这些分布的概率密度函数可以建立相
应的模型,这些都是广义线性模型的一个实例。
转自http://blog.csdn.net/acdreamers/article/details/44663091
函数当作因变量的估计值。在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵
模型,Logistic回归,softmax回归,等等。今天主要来学习如何来针对某类型的分布建立相应的广义线性模型。
Contents
1. 广义线性模型的认识
2. 常见概率分布的认识
1. 广义线性模型的认识
首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下
其中
为自然参数,它可能是一个向量,而
叫做充分统计量,也可能是一个向量,通常来说
。
实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量
服从高斯分布,那么
得到的是线性最小二乘回归,当随机变量
服从伯努利分布,则得到的是Logistic回归。
那么如何根据指数分布族来构建广义线性模型呢? 首先以如下三个假设为基础
(1)给定特征属性
和参数
后,
的条件概率
服从指数分布族,即
。
(2)预测
的期望,即计算
。
(3)
与
之间是线性的,即
。
在讲解利用广义线性模型推导最小二乘和Logistic回归之前,先来认识一些常见的分布,这是后面的基础。
2. 常见概率分布的认识
(1)高斯分布
关于高斯分布的内容我就不再多讲了,如果把它看成指数分布族,那么有
对比一下指数分布族,可以发现
所以高斯分布实际上也是属于指数分布族,线性最小二乘就是基于高斯分布的。
(2)伯努利分布
伯努利分布又叫做两点分布或者0-1分布,是一个离散型概率分布,若伯努利实验成功,则伯努利随机变
量取值为1,如果失败,则伯努利随机变量取值为0。并记成功的概率为
,那么失败的概率就是
,
所以得到其概率密度函数为
如果把伯努利分布写成指数分布族,形式如下
对比指数分布族,有
Logistic回归就是基于伯努利分布的,之前的Sigmoid函数,现在我们就可以知道它是如何来的了。如下
如果
那么
叫做正则响应函数,而
叫做正则关联函数。
(3)泊松分布
泊松分布是一种离散型概率分布,其随机变量
只能取非负整数值0,1,2,... 且其概率密度函数为
其中参数
是泊松分布的均值,也是泊松分布的方差,表示单位时间内随机事件的平均发生率。在实际
的实例中,近似服从泊松分布的事件有:某电话交换台收到的呼叫,某个网站的点击量,来到某个公共
汽车站的乘客,某放射性物质发射出的粒子,显微镜下某区域内的白血球等计数问题。
泊松分布的内容:http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88
关于概率论中的分布主要介绍这几个,其中还有很多分布都属于指数分布族,比如伽马分布,指数分布,多
元高斯分布,Beta分布,Dirichlet分布,Wishart分布等等。根据这些分布的概率密度函数可以建立相
应的模型,这些都是广义线性模型的一个实例。
转自http://blog.csdn.net/acdreamers/article/details/44663091
相关文章推荐
- Mootools 1.2教程 函数
- autoit InputBox 函数
- 文件遍历排序函数
- 关于C#中排序函数的总结
- Oracle 函数大全[字符串函数,数学函数,日期函数]第1/4页
- ASP下经常用的字符串等函数参考资料
- PostgreSQL教程(五):函数和操作符详解(1)
- DOS批处理 函数定义与用法
- asp Chr 函数 数字转字母的方法
- Lua中的函数精讲笔记
- Lua中的闭合函数、非全局函数与函数的尾调用详解
- Lua中调用C++函数示例
- Lua实现split函数
- Lua常用时间函数使用实例
- Lua函数与字符串处理简明总结
- Lua学习笔记之表和函数
- Lua中实现sleep函数功能的4种方法
- Lua函数用法研究
- Lua基础教程之赋值语句、表达式、流程控制、函数学习笔记
- Sql Server中REPLACE函数的使用