您的位置：首页 > 产品设计 > UI/UE

Khan公开课 - 统计学学习笔记：（七）伯努利分布、置信区间、t分布、p-value和第一型错误

2012-10-06 16:26 471 查看

伯努利分布（Bernoulli Distribution）

Bernoulli Distribution是最简单的二项式分布，只有两个选择，Y or N，以0表示N，1表示Y。在日常生活中也比较常见，符合非黑即白的二元思维，例如投票预测。假设p表示Y（1）的概率，那么N（0）的概率为1-p。

Mean或者期望值E（X）=μ=p

方差

，这在二项式方差中我们也推倒过。

误差范围和置信区间

在中心极限定理中的举例就是就是误差范围。所为的置信区间，就是有某个几率落在该误差范围内。Find an interval such that reasonably confident that there is an given chance the true μ=p is in the interval.

以Bernoulli Distribution为例，在抽样的100个样本中

，例如某个娱乐节目最后一轮投票，总本很大，有1亿。我们需要从样本中推出，95%的概率，真实的μ=p的误差范围（margin of error）。根据给出数字，计算出

根据central limit theorem，我们知道样本均值是符合正态分布的。而95%（准确应该是95.4%）就是2σ范围。

P(

is within 2

, n=100) = 95.4%

我们不知道确切的

，但可以用S来进行估算，

，本例子中 ≈0.05。

P(

is within 2

(±0.1) of

) = 95.4%

P(

is within 2

(±0.1) of

) = 95.4%

P（μ=

=p is within 0.43±0.1) ≈ 95%，换言之p有95%分布在0.33和0.53中，即95%的置信区间为（0.33，0.53），范围还是挺大的，要缩小范围，增加n的值。

小样本容量的置信空间

一般来讲，n<30，不能进行好的估计，针对这种情况，给出t distribution对sample mean分布进行修正。

T分布和正态分布相似，具有fatter tail，因为低估了S。对应的，不再去查z table，而是去查t table。T table的列为自由度degrees of freedom，即n-1。

有些记法在

上面加了个帽子记为

，表示这是由样本标准差估算出来的sample mean的standard devication。

p-value、双侧检查和单侧检查

再举一个实际的用途，例如在普通的情况下，μ=1.2，在特殊情况下，例如药物等作用，在n=100的情况下，药物组的

=1.05，S=0.5。问药物是否起作用。

在此我们假设药物不起作用，一般记为

H0：药物不起作用，μ=1.2。

H1：药物起作用，μ≠1.2。在这个例子，我们只是考虑药物是否有效，而不考虑是正效果和效果，称为双侧检查two tailed test。

H0即null Hypothesis，H1表示备选（也有人记为Ha，如果p-value=P（H0）的概率很低，认为H1成立。

根据中心采样定理，计算出

=0.05，z=3，也就是P(result more extreme)=P(

<1.05
or

>1.35)=0.3%。也就是此例中p-value=0.003，对于p-value≤0.05（通常定义的阈值称为significance level，记作α），可以认为假设不成立。在本例中认为（非绝对）药物起作用。

如果是单侧检查one tailed test。例如上面的例子中药物会改善或者无效。

H0：药物不起作用，μ=1.2。

H1：药物起作用，μ<1.2。

p-value=P（result more extreme）=P（mean lower than 1.05）=0.0015，故H0的概率低，我们选择H1。

第一型错误（Type I error）

所谓的Type I error，即Rejecting H0 even through it is true.我们选择H1，不是100%的正确，概率很大。在上面的单侧检查的例子中，Type I error with probability = 0.15%.

相关链接：我的四方书库

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航