您的位置:首页 > 数据库

大型数据库分析技巧-统计学基础2

2015-10-30 20:37 344 查看

3.简单概率论

3.1 概率空间(Wahrscheinlichkeitsraum)

三元式:(Ω,F,P)(\Omega,F,P)

Ω:\Omega:结果集合(Ergebnismenge)//指可能出现的结果如掷骰子可能出现的结果是1到6

F⊆2Ω: \subseteq 2^\Omega :事件域(Raum der Ereignisse)//表示感兴趣的事件的集合比如掷骰子得出结果为基数

P(Wahrscheinlichkeitsmass):每个事件的概率

其中F还具有以下属性:

1.F可以包括空事件,全事件//triviale Ereignis

2.F对Vereinigung和Komplement闭合//Vereinigung指联合Komplement指互补,在这里指什么还木弄清楚??待查明

另外P满足下列属性:

1.非负(Nichtnegativitaet):

2.全事件概率为一:P(Ω)=1P(\Omega)=1

3.符合加法属性(Additivitaet):对于所有的事件a,b∈F且a∩b=∅:P(a∪b)=P(a)+P(b)\in F 且 a\cap b =\varnothing:P(a \cup b)=P(a)+P(b)

3.2 多变量分布(Multivariate Verteilungen)

随机变量(Zufallsvariable)://不解释了吧

多变量分布(Multivariate Verteilungen):多维随机变量的概率分布

边缘分布(Randverteilungen):

P(X,Y)是一个多变量分布

边缘分布P(X)=∑b∈Val(Y)P(X,Y=b)\sum_{b \in Val(Y)} P(X,Y=b)

3.3 条件分布(Bedingte Verteilungen)

即当一个变量已知的条件下,另一个变量的概率分布

公式: P(X=a|Y=b)=P(X=a,Y=b)P(Y=b)P(X=a|Y=b)=\frac{P(X=a,Y=b)}{P(Y=b)}

不相关性(Unabhängigkeit):当一个变量的概率已知时并不会影响另一个变量的概率分布,他符合下面的公式:

P(X)=P(X|Y)P(X)=P(X|Y)

P(X,Y)=P(X)∗P(Y)P(X,Y)=P(X)*P(Y)

3.4 概率函数(Wahrscheinlichkeitsfunktion)

离散随机变量:

f(x)=P(X=x)

f必须非负且∑xf(x)=1\sum_x f(x)=1

连续随机变量:

密度函数(Dichtfunktion): P(X∈[a,b]=∫baf(x)dx)P(X \in[a,b]=\int_a^bf(x) dx)

P(X=v)=0

f(x)≥0\ge0

∫∞−∞f(x)dx=1\int_{-\infty}^\infty f(x)dx=1

3.5 期望与方差(Erwartungswert und Varianz)

离散: E(X)=∑a∈Val(X)a∗P(X=a)\sum_{a \in Val(X)} a*P(X=a)

连续: E(X)=∫Val(x)x∗f(x)dx\int_{Val(x)} x*f(x)dx

方差: Var(x)=E((X−E(X))2)=E(X2)−E(X)2E((X-E(X))^2)=E(X^2)-E(X)^2

3.6 协方差与相关比(Kovarianz,diverse Korrelationsmasse)

Kovarianz和Korrelationsmasse的区别:协方差是未标准化得(nicht normiert)而相关比是标准化了的,他的值域是[−1,1][-1,1]//未标准化指不同的背景(上下文Kontext)的值,是不可以进行比较的

两随机变量的协方差的定义:Cov(X,Y)=E((X−E(X)∗(Y−E(Y))))Cov(X,Y)=E((X-E(X)*(Y-E(Y))))

//协方差是用来度量什么关系的呢??回头再查吧

一个随机变量的与其自身的协方差就是他的方差

协方差矩阵(Kovarianzmatrix):用矩阵的形式表示向量随机变量不同参数的之间的协方差//他是对称的,可作为PCA的输入

4.统计测试(Statistische Test)

4.0 学习目的

1.学习各种Test的构成

2.了解不同Test的作用

3.学会应用不同的Test

//数学基础和Test的来源将不会被提及

4.1 Chi-Quadrat Test

目的:比较两个分布的关联性(unabhaengigkeit)

方法:对观察值和期望值进行比较

公式: χ2=∑m1i=1∑m2j=1(nij−eij)2eij\chi^2=\sum_{i=1}^{m_1}\sum_{j=1}^{m_2}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}

其中m1m_1表示第一个属性有m1个取值,n表示观测到的出现的个数,e表示出现个数的期望

结果越小说明关联越大

4.2 Kolmogorov-Smirnov Test

目的:比较两个不同的分布是否统一或者识别一个分布是否与预测的一致//同时适用于离散和连续的数据

方法:以样本的累积频数分布和特定理论分布比较

例子:比较测量的到的天气温度是否与预测的一样

1.首先要进行数据收集,然后画出关于温度的频数分布图

2.然后依据频数分布图,求出相应的累积频数分布

3.用得到的累积频数分布和事前预测的累积频数分布做比较,计算差值

4.差值越小说明预测越准确

4.3 Wilcoxon-Mann-Whitney Test

目的:比较两个分布的差异性

方法:假定检测的两组数据没有差异。首先不管分组,把所有数据进行排序,并按数值大小给定一个值叫秩。秩最小为1,最大为n。如果有相同的值,那么他们的秩相同,其值为各自秩的平均值。如果这两个组的秩之和比较大就会得到较小的p值,那么我们就认为这两个组之间有显著的差距

//注 这里关注的并非分布而是中值

//样本量太小得话效度会很低

//方法这一段是从别人的Blog上照搬过来的 原址早在不知处了

4.4 Bernoulli-Experiment

//跳了 占时没看明白 回看

//名字就是伯努利实验,但老师上课讲得感觉有点不一样 弄明白再补吧

5.数据缩减(Datenreduktion)

是指数据库的一种呈现方式(Repräsentation des Datenabstands),他占用明显比较小得空间,但是他的分析结果确实几乎不变的

他的主要方法有:

1.数量缩减(Numerosity Reduction) 缩减数据量

2.维度缩减(Dimensionality Reduction) 缩减属性

3.离散化(Diskretisierung) 简化存储值

5.1 Numerosity Reduction

针对参数化(parametrisch)和非参数化(nichtparametrisch)的分布有不同的方法

针对参数分布的方法(parametrische Verfahren):

假设数据分布符合特定的模型(Modell)

估计模型参数,并且只存储不在状况内的数据

针对非参数分布的方法(nichtparametrische Verfahren)

没有假设

常用的方法有:Sampling,Clustering,Histogramme

//未完待续 虽然可能会待很久的说
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: