您的位置:首页 > 其它

《统计学》读书笔记,第11-14章

2014-04-03 14:05 369 查看

第11章 时间序列预测

11.1 时间序列的成分和预测方法

       一个时间序列由四种要素组成:

       趋势(T):时间序列在一段较长时期内呈现出来的持续向上或者向下的变动;

       季节变动(S):时间序列呈现出以年为周期长度的固定变动模式;

       循环波动(C):时间序列呈现出的非固定长度的周期性变动;

       不规则波动(I):时间序列出去上述3者的随机波动。

       对于不同的数据模式(T、S、C、I),不同的预测期、不同的数据要求,对应不同的数据预测方法:移动平均、简单指数平滑、Holt指数平滑、一元线性回归、指数模型、多项式函数、Winter指数平滑、分解预测、ARIMA模型等。

11.2 平稳序列的预测

11.2.1 移动平均预测

       使用最近k期的数据的均值预测下一时间点的数据。

11.2.2 简单指数平滑预测

       Ft+1 = αYt+ (1-α)St,t期的实际值与t期的平滑值(?)加权平均。选取合适的α是关键。

11.3 趋势预测

11.3.1 线性趋势预测

(1)一元线性回归预测

       之前介绍的一元线性回归

(2)Holt指数平滑预测

       当时间序列存在趋势时,简单指数平滑的预测结果总是滞后于实际值。而Holt模型则改进了这个弱点(只适用于仅存在趋势成分,不包含季节成分)。

       平滑值:St= αYt+ (1-α)(St-1 + Tt-1),消除因趋势产生的滞后

       趋势项更新:Tt= γ(St- St-1) + (1-γ)Tt-1,对趋势的修正

       未来第k期的预测值:Ft+k = St +kTt

11.3.2 非线性趋势预测

(1)指数曲线

       yt’ = b0eb1t

       对式子取对数,然后看作线性回归,用最小二乘法求参数。

(2)多阶曲线

       yt’ = b0 + b1t+ b2t2 +… + bktk

       对式子取对数,然后看作线性回归,用最小二乘法求参数。

11.3.3 残差自相关及其检验

       时间序列残差经常出现相邻两残差具有相同符号,这表明残差序列自相关,这种情况应该避免使用最小二乘法。

       判断残差之间是否自相关,一般使用Durbin-Watson检验(D-W检验):

       H0:残差无自相关;H1:残差有自相关

       D-W检验统计量:d= Σ(et – et-1)2 /Σet2

11.4 多成分序列的预测

       如果时间序列同时包含趋势、季节变动和随机波动等多种成分,可以使用下述方法。

11.4.1 Winter指数平滑预测

       时间序列中既含有趋势成分,又含有季节成分。

       平滑值:St= αYt/It-L+(1-α)(St-1 + Tt-1)

       趋势项更新:Tt= γ(St- St-1) + (1-γ)Tt-1

       季节项更新:It= δYt/St + (1-δ)It-L

       未来第k期的预测值:Ft+k = (St +kTt) It-L+k

11.4.2 引入季节哑变量的多元回归预测

       时间序列中既含有趋势成分,又含有季节成分。可以将季节成分处理为哑变量,引入多元回归模型进行预测。例如数据按季度分为4类,就引入3个哑变量。

11.4.3 分解预测

       先将时间序列的各个成分依次分解出来,再进行预测。(SPSS能直接进行分离)

11.5 Box-Jenkins方法:ARIMA模型

       整合自回归移动平均(ARIMA)模型,主要运用于平稳序列或可平稳化的序列预测。

11.5.1 自相关与自相关图

       时间序列观测值与之前时期的观测值之间的相关。时间序列的自相关程度由自相关系数来度量:rk = Σ(Yt– μy)(Yt-k - μy) /Σ(Yt – μy)2

11.5.2 Box-Jenkins方法的基本思想

       白噪声序列:0均值,同方差且不相关。

       选取合适的黑盒子(ARIMA模型),使其得到的预测误差是一个白噪声。不是去寻找自变量的方法。

11.5.3 ARIMA模型的识别

(1)自回归(AR)模型

       Yt = φ1Yt-1+φ2Yt-2 + … +φpYt-p + et

       如何检验一个实际的时间序列是否是AR序列,通常方法是观察时间序列的自相关图和偏自相关图。

       AR序列的自相关图和偏自相关图的典型特征是:它的自相关图单调递减逐步降为0或交替递减逐步将为0,而它的偏自相关图则具有明显的峰值(p个)。

(2)移动平均(MA)模型

       Yt = et + θ1et-1 + θ2et-2 + … + θqet-q,预测Yt时产生的预测误差作为自变量。

如何检验一个实际的时间序列是否是MA序列,通常方法是观察时间序列的自相关图和偏自相关图。

       MA序列的自相关图和偏自相关图的典型特征是:自相关图具有明显的峰值(q个),偏自相关图单调递减逐步降为0或交替递减逐步将为0。

(3)自回归移动平均(ARMA)模型

       Yt = φ1Yt-1+φ2Yt-2 + … +φpYt-p + et
+θ1et-1 + θ2et-2 + … + θqet-q

       如何检验一个实际的时间序列是否是ARMA序列,通常方法是观察时间序列的自相关图和偏自相关图。

       ARMA序列的自相关图和偏自相关图的典型特征是:自相关图和偏自相关图都是主键趋于0而不是突然变0,都是拖尾的。偏自相关函数中峰值个数代表AR的阶数,自相关函数的峰值个数代表MA的阶数。

(4)ARIMA(p, d, q)模型

       由于ARMA模型要求序列必须平稳,即时间序列中没有趋势、季节和循环成分。对于非平稳序列,需要修正使其平稳化,方法之一是进行差分(一阶):ΔYt = Yt– Yt-1。

       如果一阶差分不能消除趋势,需要进行多次差分,即在一阶差分的基础上再进行一次差分,就是二阶差分,直到差分后的序列的自相关系数趋于0。

       平稳后再运用ARMA模型就称为ARIMA(p, d, q)模型。

       诊断模型是否选择正确,通常是考察残差序列的自相关图,看是否为白噪声。另一种方法是利用Box-Ljung统计量:Qm = n(n+2)Σ(rk2/n-k)~ χ2(m-p-q)。

 

第12章 主成分分析和因子分析

12.1 主成分分析

12.1.1 主成分分析的基本原理

       通过考察变量间的相关性,找到少数几个主成分来代表原来的多个变量,同时使它们尽可能保留原始变量的信息,达到降维的目的。

12.1.2 主成分分析的数学模型

       原始p个变量:x1,x2,…,xp,新的变量(主成分):y1,y2,…,yp,有:

       y1 = a11x1+ a12x2 + … + a1pxp

       y2 = a21x1+ a22x2 + … + a2pxp

       … …

       yp = ap1x1+ ap2x2 + … + appxp

       选取Var(yi)最大的yi作为第一个主成分,一般所选主成分的方差综合占全部方差的80%以上就可以了。

12.1.3 主成分分析的步骤

       第一步:对原来的p个变量进行标准化,以消除变量水平和量纲的影响;

       第二步:根据标准化后的数据计算相关系数矩阵;

       第三步:求出相关系数矩阵的特征根,即主轴或方差,及对应的单位特征向量;

       第四步:确定主成分。

计算比较复杂,一般借助SPSS来完成。

12.2 因子分析

12.2.1 因子分析的意义和数学模型

       因子分析和主成分分析的目的一样,只是主成分分析中,有几个原始变量就有几个主成分,只是最后确定了少数几个。而因子分析则需要事先确定要找到几个成分,即因子,然后将原始变量综合为少数几个因子,以再现原始变量与因子之间的关系。

       原始p个变量:x1,x2,…,xp,k个因子:f1,f2,…,fk,有:

       x1 = a11f1+ a12f2 + … + a1kfk + ε1

       x2 = a21f1+ a22f2 + … + a2kfk + ε2

       … …

       xp = ap1f1+ ap2f2 + … + apkfk + εp

       度量变量xi的信息能够被k个公因子所解释的程度,可用k个因子对第i个变量的方差贡献率来表示,称为变量xi的共同度量:hi2 =Σj=1…kaij2,第j个因子的方差贡献率:gj2 =Σi=1…paij2。

12.2.2 因子分析的步骤

(1)数据检验

       判断数据是否适合作因子分析。

       检验变量之间是否足够相关,可以计算各变量之间的相关系数矩阵,若大部分小于0.3,就不适合作因子分析了。

       此外,还可以用Kaiser-Meyer-Olkin检验(KMO检验)和Bartlett球度检验。

(2)因子提取

       提出少数的几个因子,方法有:主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因子法。

(3)因子命名和解释

       对提取出的少数几个因子,给予物理意义的解释。如果解释不了,需要进一步作因子旋转。

(4)计算因子得分

       因子得分就是每个因子在每个样本上的具体取值。由下计算给出:

       f1 = b11x1+ b12x2 + … + b1pxp

       f2 = b21x1+ b22x2 + … + b2pxp

       … …

       fk = bk1x1+ bk2x2 + … + bkpxp

 

第13章 聚类分析

这部分是我的研究方向,比较熟,就不再详细列出。

13.1 聚类分析基本原理

13.1.1 什么是聚类分析

       区分下聚类与分类,在于类别未知。

13.1.1 相似性的度量

13.2 层次聚类

       分裂与凝聚

13.3 K-means聚类

 

第14章 非参数检验

14.1 单样本的检验

14.1.1 总体分布类型的检验

(1)二项分布检验

       原假设:抽取样本所依赖的总体与特定的二项分布无显著差异。

(2)K-S检验

       方法:将某一变量的累积分布函数F(x)与特定的分布函数F0(x)进行比较。可以检验正态分布、泊松分布、均匀分布、指数分布等。

       H0:F(x)= F0(x);H1:F (x) ≠ F0(x)

       统计量:z= sqrt(n)D,D=max( |F(xi)-F0(xi)|,|F(xi-1)- F0(xi)|)

14.1.2 中位数的符号检验

       检验总体中位数是否等于某个假定的值。

       H0:M= M0;H1:M ≠ M0

       统计量:S+,S-。S+表示样本数据与M0差值为正的样本个数。

14.1.3 Wilcoxon符号秩检验

       符号检验只利用样本差异方向上的信息,未考虑差异大小。

       H0:M= M0;H1:M ≠ M0

       统计量:W+,W-。W+表示差异值为正的样本对应的秩和。秩为所有样本差异值的绝对值排序后的序号。

14.2 两个及两个以上样本的检验

14.2.1 两个配对样本的Wilcoxon符号秩检验

14.2.2 两个独立样本的Mann-Whitney检验

14.2.3 k个独立样本的Kruskal-Wallis检验

14.3 秩相关及其检验

14.3.1 Spearman秩相关及其检验

14.3.2 Kendall秩相关及其检验

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息