大型数据库分析技巧-统计学基础2
2015-10-30 20:37
344 查看
3.简单概率论
3.1 概率空间(Wahrscheinlichkeitsraum)
三元式:(Ω,F,P)(\Omega,F,P)Ω:\Omega:结果集合(Ergebnismenge)//指可能出现的结果如掷骰子可能出现的结果是1到6
F⊆2Ω: \subseteq 2^\Omega :事件域(Raum der Ereignisse)//表示感兴趣的事件的集合比如掷骰子得出结果为基数
P(Wahrscheinlichkeitsmass):每个事件的概率
其中F还具有以下属性:
1.F可以包括空事件,全事件//triviale Ereignis
2.F对Vereinigung和Komplement闭合//Vereinigung指联合Komplement指互补,在这里指什么还木弄清楚??待查明
另外P满足下列属性:
1.非负(Nichtnegativitaet):
2.全事件概率为一:P(Ω)=1P(\Omega)=1
3.符合加法属性(Additivitaet):对于所有的事件a,b∈F且a∩b=∅:P(a∪b)=P(a)+P(b)\in F 且 a\cap b =\varnothing:P(a \cup b)=P(a)+P(b)
3.2 多变量分布(Multivariate Verteilungen)
随机变量(Zufallsvariable)://不解释了吧多变量分布(Multivariate Verteilungen):多维随机变量的概率分布
边缘分布(Randverteilungen):
P(X,Y)是一个多变量分布
边缘分布P(X)=∑b∈Val(Y)P(X,Y=b)\sum_{b \in Val(Y)} P(X,Y=b)
3.3 条件分布(Bedingte Verteilungen)
即当一个变量已知的条件下,另一个变量的概率分布公式: P(X=a|Y=b)=P(X=a,Y=b)P(Y=b)P(X=a|Y=b)=\frac{P(X=a,Y=b)}{P(Y=b)}
不相关性(Unabhängigkeit):当一个变量的概率已知时并不会影响另一个变量的概率分布,他符合下面的公式:
P(X)=P(X|Y)P(X)=P(X|Y)
P(X,Y)=P(X)∗P(Y)P(X,Y)=P(X)*P(Y)
3.4 概率函数(Wahrscheinlichkeitsfunktion)
离散随机变量:f(x)=P(X=x)
f必须非负且∑xf(x)=1\sum_x f(x)=1
连续随机变量:
密度函数(Dichtfunktion): P(X∈[a,b]=∫baf(x)dx)P(X \in[a,b]=\int_a^bf(x) dx)
P(X=v)=0
f(x)≥0\ge0
∫∞−∞f(x)dx=1\int_{-\infty}^\infty f(x)dx=1
3.5 期望与方差(Erwartungswert und Varianz)
离散: E(X)=∑a∈Val(X)a∗P(X=a)\sum_{a \in Val(X)} a*P(X=a)连续: E(X)=∫Val(x)x∗f(x)dx\int_{Val(x)} x*f(x)dx
方差: Var(x)=E((X−E(X))2)=E(X2)−E(X)2E((X-E(X))^2)=E(X^2)-E(X)^2
3.6 协方差与相关比(Kovarianz,diverse Korrelationsmasse)
Kovarianz和Korrelationsmasse的区别:协方差是未标准化得(nicht normiert)而相关比是标准化了的,他的值域是[−1,1][-1,1]//未标准化指不同的背景(上下文Kontext)的值,是不可以进行比较的两随机变量的协方差的定义:Cov(X,Y)=E((X−E(X)∗(Y−E(Y))))Cov(X,Y)=E((X-E(X)*(Y-E(Y))))
//协方差是用来度量什么关系的呢??回头再查吧
一个随机变量的与其自身的协方差就是他的方差
协方差矩阵(Kovarianzmatrix):用矩阵的形式表示向量随机变量不同参数的之间的协方差//他是对称的,可作为PCA的输入
4.统计测试(Statistische Test)
4.0 学习目的
1.学习各种Test的构成2.了解不同Test的作用
3.学会应用不同的Test
//数学基础和Test的来源将不会被提及
4.1 Chi-Quadrat Test
目的:比较两个分布的关联性(unabhaengigkeit)方法:对观察值和期望值进行比较
公式: χ2=∑m1i=1∑m2j=1(nij−eij)2eij\chi^2=\sum_{i=1}^{m_1}\sum_{j=1}^{m_2}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}
其中m1m_1表示第一个属性有m1个取值,n表示观测到的出现的个数,e表示出现个数的期望
结果越小说明关联越大
4.2 Kolmogorov-Smirnov Test
目的:比较两个不同的分布是否统一或者识别一个分布是否与预测的一致//同时适用于离散和连续的数据方法:以样本的累积频数分布和特定理论分布比较
例子:比较测量的到的天气温度是否与预测的一样
1.首先要进行数据收集,然后画出关于温度的频数分布图
2.然后依据频数分布图,求出相应的累积频数分布
3.用得到的累积频数分布和事前预测的累积频数分布做比较,计算差值
4.差值越小说明预测越准确
4.3 Wilcoxon-Mann-Whitney Test
目的:比较两个分布的差异性方法:假定检测的两组数据没有差异。首先不管分组,把所有数据进行排序,并按数值大小给定一个值叫秩。秩最小为1,最大为n。如果有相同的值,那么他们的秩相同,其值为各自秩的平均值。如果这两个组的秩之和比较大就会得到较小的p值,那么我们就认为这两个组之间有显著的差距
//注 这里关注的并非分布而是中值
//样本量太小得话效度会很低
//方法这一段是从别人的Blog上照搬过来的 原址早在不知处了
4.4 Bernoulli-Experiment
//跳了 占时没看明白 回看//名字就是伯努利实验,但老师上课讲得感觉有点不一样 弄明白再补吧
5.数据缩减(Datenreduktion)
是指数据库的一种呈现方式(Repräsentation des Datenabstands),他占用明显比较小得空间,但是他的分析结果确实几乎不变的他的主要方法有:
1.数量缩减(Numerosity Reduction) 缩减数据量
2.维度缩减(Dimensionality Reduction) 缩减属性
3.离散化(Diskretisierung) 简化存储值
5.1 Numerosity Reduction
针对参数化(parametrisch)和非参数化(nichtparametrisch)的分布有不同的方法针对参数分布的方法(parametrische Verfahren):
假设数据分布符合特定的模型(Modell)
估计模型参数,并且只存储不在状况内的数据
针对非参数分布的方法(nichtparametrische Verfahren)
没有假设
常用的方法有:Sampling,Clustering,Histogramme
//未完待续 虽然可能会待很久的说
相关文章推荐
- [Django数据库模型]Django用原始SQL进行Insert/Update操作
- Mysql 表忽略大小写~~
- SQLiteOpenHelper类
- iOS常见错误1-SQLite错误-SQLITE_CANTOPEN,SQLITE_MISUSE和SQLITE_BUSY
- JAVA插入sql代码
- [Django数据库模型]创建我们第一个Django模型
- Oracle的锁表与解锁
- SQLite使用基础
- SQL的作用
- Oracle性能调优(AWR)
- SQL中的通配符
- 50个常用sql语句
- mysql查询今天、昨天、7天、近30天、本月、上一月 数据
- 机房收费系统——数据库设计说明书
- PostgreSQL——启动脚本
- iOS sqlite数据库的基本使用方法
- oracle常用SQL语句
- oracle跟踪常用内部事件号
- mysql中kill掉所有锁表的进程
- Case函数的使用及注意点