您的位置:首页 > 其它

深度学习第三章-概率与信息论笔记

2017-08-07 14:59 162 查看

3.1 为什么要使用概率?

3.2 随机变量

3.3 概率分布

3.3.1 离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数(probabilit mass function, PMF)描述。

3.3.2 连续型变量和概率密度函数

连续型随机变量的分布可以用概率密度函数(probability denstity function, PDF)表示。概率密度函数p(x)并没有直接对特定的状态给出概率,而是给出落在面积为δx 的无限小的区域内的概率为p(x)δx

3.4边缘概率

3.5条件概率

3.6条件概率的链式法则

3.7独立性和条件独立性

3.8期望、方差和协方差

期望,Ex∼P[f(x)]=∑xP(x)f(x)对于连续型:Ex∼P[f(x)]=∫p(x)f(x)dx.

方差(variance)衡量的是当我们对x根据它概率分布进行采样时,随机变量x的函数值会呈现多大的差异:Var((fx))=E[(f(x)−E[f(x)])2].方差的平方根被称为标准差。

协方差(covariance)给出两个变量线性相关性的强度:Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]协方差的绝对值大,意味着变量值变化很大并且它们同时距离各自的均值很远。

若协方差为正,两个变量都倾向于同时取得相对较大的值

若协方差为负,其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得较小的值,反之亦然。

协方差矩阵(covariance matrix)是一个n×n的矩阵。 协方差矩阵的对角元是方差:Cov(xi,xi)=Var(xi)

3.9 常用概率分布

3.9.1 Bernoulli分布

Bernoulli分布是单个二值随机变量的分布。由单个参数ϕ控制,表示随机变量等于1的概率:P(x=1)=ϕ P(x=0)=1−ϕP(x=x)=ϕx(1−ϕ)1−xEx[x]=ϕVarx(x)=ϕ(1−ϕ)

3.9.2 Multinoulli分布

Multinoulli分布或者范畴分布(categorycal distribution)是指在具有k个不同状态的单个离散型随机变量上的分布。

3.9.3 高斯分布

高斯分布(Gaussian distribution)也称正态分布(normal distribution):N(x;μ,σ2)=12πσ2−−−−−√exp(−12σ2(x−μ)2)分布的均值E[x]=μ,分布的标准差用σ表示,方差σ2。

当我们缺乏关于某个实数上分布的先验知识而不知道采用哪种分布,选择正态分布的原因:

很多分布的真实情况比较接近正态分布。

在具有相同方差的所有概率分布中,正态分布在实数上具有最大的不确定性。

3.9.4指数分布和Laplace分布

泊松分布:一个时间段内时间平均发生的次数(离散变量)

指数分布:两件事发生的平均时间间隔。p(x;λ)=λ1x≥0exp(−λx)其中 1x≥0是指示函数(indicator function),使得x取负值的概率为零。泊松分布和指数分布

Laplace分布:Laplace(x;μ,γ)=12γexp(−|x−μ|γ)

其中μ是位置参数,γ尺度参数。

正态分布用平均值μ的差的平方(x−μ)2。

Laplace用相对平均值的差的绝对值表示,尾部比正态分布更平坦。(声音辨识、JPEG压缩等)E(x)=μVar(x)=2σ2拉普拉斯分布-百度百科

3.9.5 Dira分布和经验分布

所有质量都集中在一点上。Dirac Delta函数:p(x)=δ(x−μ),信号与系统中很熟悉了。除0点外所有点的值都是0,但整体积分为1.

经验分布(empirical distribution):p(x)=1m∑i=1mδ(x−x(i))将概率密度为1m的m个点中赋给每一个,给定采样

3.9.6 混合模型

常见的高斯混合模型(Gaussian Mixture Model),高斯混合模型是概率密度的万能近似器(universal approximator)。

3.10 常用函数的有用性质

logistic sigmoid函数:σ(x)=11+exp(−x),通常用来生成Bernoulli分布中的参数,(即得出分类的概率)。logistic 回归

softplus函数(softplus function):ζ(x)=log(1+exp(x)),可以用来产生正态分布的β和σ参数。来源于x+=max(0,x)softplus Relu

两者之间:σ(x)=exp(x)exp(x)+exp(0)等公式见书。

3.11贝叶斯规则

常用:P(x|y)=P(x)P(y|x)P(y),具体百度贝叶斯,朴素贝叶斯等。

###3.12连续型变量的技术细节

假设两个随机变量x和y满足y=g(x),是否py(y)=px(g−1(y))成立?

不成立

举例子:假设y=x2,x∈(0,1)如果令py(y)=px(2y),此时py除了区间(0,12)之外都为0,并在这个区间等于1(与px一致).所以整个区间积分为12,与概率密度定义矛盾。这是因为没有考虑引入函数g引起的空间变形。(点的密度不同)。为解决这一矛盾:对于实值向量x和y:引入Jacobian矩阵进行微分扩展运算:px(x)=py(g(x))∣∣∣∣det(∂g(x)∂x)∣∣∣∣

3.13信息论

本科和研一学过太多了,略过0.0

KL散度(Kullback-Leibler(KL)divergence)衡量两个单独的概率分布P(x)Q(x)的差异:DKL(P||Q)=Ex∼P[logP(x)Q(x)]=Ex∼P[logP(x)−logQ(x)]在离散型变量的情况下,KL散度衡量的是当一种能被设计成概率分布Q产生的消息的最小的编码,发送包含由概率P产生的符号的消息时,所需要的额外信息量。

KL散度非负。KL散度为0,且P(x)和Q(x)为离散型变量是相同的分布。

结构化概率模型

有向(directed)图

无向(undirected)图

还没用到过,不太了解。tensorflow用的就是这种格式。

方差D=1N−1∑Ni=1(xi−x¯)2,因为N - 1 x¯,用掉了一个自由度。

softplus是relu的扩展,处处可导

nerual style ,数据很小优化可以用LBFGS
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: