您的位置:首页 > 其它

应用统计学与R语言实现学习笔记(五)——参数估计

2017-05-07 23:53 387 查看

Chapter 5 Estimation

本篇是第五章,内容是参数估计。

Chapter 5 Estimation

参数估计的一般问题

区间估计 Confidence Intervals

样本容量的确定

1.参数估计的一般问题

正如前面介绍的,统计学的两大分支,分别是描述统计和推断统计。所以今天来谈谈推断统计的第一大问题——参数估计。当然一般叫统计推断的会更多些,二者是一样的。

统计推断(Statistical Inference)——主要包括参数估计和假设检验,实质就是通过样本的均值、标准差、方差等去估计总体的均值、标准差、方差或者判断总体的分布形式和分布参数。

参数估计:根据从总体中抽得的样本所提供的信息,对总体分布中包含的未知参数作出数值上的估计。

点估计:用样本的某一函数值来估计总体分布中的未知参数;

区间估计:按照一定的可靠度估计出参数的一个范围,即确定一个区间,使这一个区间内包含参数真值的概率达到预先所要求的程度。

假设检验:需要对总体的分布形式或分布参数事先作出某种假设,然后根据样本观测值,运用统计分析的方法来检验这一假设是否正确。

上一篇提到的,获取样本之后,我们需要去猜总体,参数估计就是猜总体的参数(分布中所含的未知参数;分布特征:均值、方差等;事件的概率等)或者参数空间(参数的可能取值范围)。

假设检验是下一章内容,这里就不细述了。

首先明确两个概念:估计量(estimator)与估计值(estimated value)。

估计量: 用于估计总体参数的随机变量,一般为样本统计量(如样本均值、 样本比例、 样本方差等; 例如:样本均值就是总体均值μ的一个估计量)。

估计值: 估计参数时计算出来的统计量的具体值,如果样本均值=80, 则80就是总体均值的估计值。

既然是估计量,就必须有评价估计量的标准。一般包括以下几点:

无偏性:估计量的数学期望等于被估计的总体参数,样本的随机性导致估计偏差, 偏差平均值为0, 无系统误差(所以在这里又提出了渐进无偏估计:估计随着样本量的增加而逐渐趋近于真值。渐进无偏估计指系统偏差会随着样本量的增加而逐渐减小,趋于0,在大样本时可近似当无偏估计使用)。

有效性: 对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效。

一致性: 随着样本容量的增大, 估计量的值越来越接近被估计的总体参数。

由于无偏性是最普遍的标准。这里再介绍部分无偏性的几个要点:

样本均值是总体期望的无偏估计。

诸观测值对样本均值的偏差可正可负,其和恒为0(n个偏差中只有n-1个是独立的)。

自由度:独立偏差个数。

偏差平方和(样本量相等情况下,偏差平方和的大小反映样本散布的大小, 样本量大,偏差平方和大趋近于平均偏差平方和,偏差平方和的期望小于方差,有偏估计,渐进无偏估计。

点估计(point estimate)

用样本估计量的某个取值直接作为总体参数的估计值(例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计)。

无法给出估计值接近总体参数程度的信息(虽然在重复抽样条件下,点估计的均值可望接近总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值等同于总体真值的可能性很小,特别是在连续分布时,该概率几乎为0,一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量)。

2.区间估计 Confidence Intervals

正如前面提到的点估计可靠性较低,因此在点估计的基础上又提出了区间估计(interval estimate),它能解决的问题包括:

为解决参数估计的精确度和可靠性问题, 在点估计的基础上给出总体参数估计的一个区间范围(该区间一般由样本统计量加减抽样误差而得到),使这一个区间内包含参数真值的概率大到预先所要求的程度。

它不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大。

二者的区别在于:点估计是一个数,区间估计给出一个区间,提供更多关于变异性的信息。通俗的解释,你女朋友买了件衣服,让你猜价格,你猜中准确价格很难,但是你猜一个范围还是准确度比较高的。



所以区间估计(interval estimate)的概念是——根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。

由概率度量则引出了置信区间(Confidence Intervals)的概念。

设x1,x2,⋯,xn是来自f(x,θ)的样本
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: