各种熵
2016-09-08 10:29
176 查看
自信息量I(x)=-log(p(x)),其他依次类推。
离散变量x的熵H(x)=E(I(x))=-∑xp(x)lnp(x)
连续变量x的微分熵H(x)=E(I(x))=-∫p(x)lnp(x)dx
条件熵H(y|x)=-∫∫p(x,y)lnp(y|x)dydx
两个变量X和 Y 的联合熵定义为:
H(X,Y)=-∫∫p(x,y)lnp(x,y)dxdy
H(x,y)=H(y|x)+H(x)
若x,y独立,H(x,y)=H(x)+H(y),此时对x的了解不能增进对y的了解。
交叉熵Cross Entropy
H(p;q)=-∫p(x)lnq(x)dx
很少见,通常使用KL距离
Kullback-Leibler divergence:KL(p||q)=-∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=H(p)+H(p;q)=-∫p(x)lnq(x)p(x)dx
p=q时,KL(p||q)=0,H(p;q)=H(p)
交叉熵与kl距离相差一个H(p)
当p未知而q已知时,通过改变KL中的p、q的位置,可以减少未知量,便于计算相似度。
交叉熵是一种万能的Monte-Carlo技术,常用于稀有事件的仿真建模、多峰函数的最优化问题。交叉熵技术已用于解决经典的旅行商问题、背包问题、最短路问题、最大割问题等。这里给一个文章链接:A Tutorial on the Cross-Entropy Method
交叉熵算法的推导过程中又牵扯出来一个问题:如何求一个数学期望?常用的方法有这么几种:
概率方法,比如Crude Monte-Carlo
测度变换法change of measure
偏微分方程的变量代换法
Green函数法
Fourier变换法
在实际中变量X服从的概率分布h往往是不知道的,我们会用g来近似地代替h—-这本质上是一种函数估计。有一种度量g和h相近程度的方法叫 Kullback-Leibler距离,又叫交叉熵,通常选取g和h具有相同的概率分布类型(比如已知h是指数分布,那么就选g也是指数分布)—-参数估计,只是pdf参数不一样(实际上h中的参数根本就是未知的)。
基于期望交叉熵的特征项选择
CE(w)=∑ip(ci|w)logp(ci|wp(ci
p(ci|w)表示在出现词条w时文档属于类别ci的概率。
交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。
互信息Mutual Informantion
yj对xi的互信息定义为后验概率与先验概率比值的对数。
I(x,y)=logp(x|y)p(x)=I(x)−I(x|y)
互信息越大,表明y对于确定x的取值的贡献度越大。
系统的平均互信息
I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
可见平均互信息就是信息增益!
I(X,Y)=KL(p(x,y)||p(x)p(y))=-∫∫p(x,y)ln(p(x)p(y)p(x,y))dxdy
互信息在特征选择中的应用
词条w与类别ci的互信息为
MI(w,c)=logp(w|c)p(w)
p(w)表示出现w的文档点总文档数目的比例,p(w|ci)表示在类别ci中出现w的文档点总文档数目的比例。
对整个系统来说,词条w的互信息为
MIavg(w,c)=∑ip(c)logp(w|c)p(w)
最后选互信息最大的前K个词条作为特征项。
离散变量x的熵H(x)=E(I(x))=-∑xp(x)lnp(x)
连续变量x的微分熵H(x)=E(I(x))=-∫p(x)lnp(x)dx
条件熵H(y|x)=-∫∫p(x,y)lnp(y|x)dydx
两个变量X和 Y 的联合熵定义为:
H(X,Y)=-∫∫p(x,y)lnp(x,y)dxdy
H(x,y)=H(y|x)+H(x)
若x,y独立,H(x,y)=H(x)+H(y),此时对x的了解不能增进对y的了解。
交叉熵Cross Entropy
H(p;q)=-∫p(x)lnq(x)dx
很少见,通常使用KL距离
Kullback-Leibler divergence:KL(p||q)=-∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=H(p)+H(p;q)=-∫p(x)lnq(x)p(x)dx
p=q时,KL(p||q)=0,H(p;q)=H(p)
交叉熵与kl距离相差一个H(p)
当p未知而q已知时,通过改变KL中的p、q的位置,可以减少未知量,便于计算相似度。
交叉熵是一种万能的Monte-Carlo技术,常用于稀有事件的仿真建模、多峰函数的最优化问题。交叉熵技术已用于解决经典的旅行商问题、背包问题、最短路问题、最大割问题等。这里给一个文章链接:A Tutorial on the Cross-Entropy Method
交叉熵算法的推导过程中又牵扯出来一个问题:如何求一个数学期望?常用的方法有这么几种:
概率方法,比如Crude Monte-Carlo
测度变换法change of measure
偏微分方程的变量代换法
Green函数法
Fourier变换法
在实际中变量X服从的概率分布h往往是不知道的,我们会用g来近似地代替h—-这本质上是一种函数估计。有一种度量g和h相近程度的方法叫 Kullback-Leibler距离,又叫交叉熵,通常选取g和h具有相同的概率分布类型(比如已知h是指数分布,那么就选g也是指数分布)—-参数估计,只是pdf参数不一样(实际上h中的参数根本就是未知的)。
基于期望交叉熵的特征项选择
CE(w)=∑ip(ci|w)logp(ci|wp(ci
p(ci|w)表示在出现词条w时文档属于类别ci的概率。
交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。
互信息Mutual Informantion
yj对xi的互信息定义为后验概率与先验概率比值的对数。
I(x,y)=logp(x|y)p(x)=I(x)−I(x|y)
互信息越大,表明y对于确定x的取值的贡献度越大。
系统的平均互信息
I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
可见平均互信息就是信息增益!
I(X,Y)=KL(p(x,y)||p(x)p(y))=-∫∫p(x,y)ln(p(x)p(y)p(x,y))dxdy
互信息在特征选择中的应用
词条w与类别ci的互信息为
MI(w,c)=logp(w|c)p(w)
p(w)表示出现w的文档点总文档数目的比例,p(w|ci)表示在类别ci中出现w的文档点总文档数目的比例。
对整个系统来说,词条w的互信息为
MIavg(w,c)=∑ip(c)logp(w|c)p(w)
最后选互信息最大的前K个词条作为特征项。
相关文章推荐
- Android开发中ListView自定义adapter的封装
- Android入门—思维导图
- PHP获取时间、时间戳的各种格式
- LCD的接口类型详解
- matlab 建立excel表格----例子
- Java Callable接口和Runnable接口的区别
- EasyUI-DataGrid之批量删除
- 架构设计:生产者/消费者模式 第1页:“生产者/消费者模式”介绍
- poj 1663 放苹果
- python 闭包
- hiberbate循环保存问题
- 第二周项目0-宣告“主权”
- 【Hadoop】Hadoop MR 如何实现倒排索引算法?
- VALGRIND
- 《你不知道的JavaScript》整理(四)——原型
- Android中不得不谈的setContentView
- 百度外卖-- 波浪效果实现
- 第二周 项目0-宣告“主权”
- 带有旋转效果的导航菜单代码
- js读取本地mp4视频文件时长