您的位置：首页 > 其它

《统计学》读书笔记，第11-14章

2014-04-03 14:05 369 查看

第11章时间序列预测

11.1 时间序列的成分和预测方法

       一个时间序列由四种要素组成：

       趋势（T）：时间序列在一段较长时期内呈现出来的持续向上或者向下的变动；

       季节变动（S）：时间序列呈现出以年为周期长度的固定变动模式；

       循环波动（C）：时间序列呈现出的非固定长度的周期性变动；

       不规则波动（I）：时间序列出去上述3者的随机波动。

       对于不同的数据模式（T、S、C、I），不同的预测期、不同的数据要求，对应不同的数据预测方法：移动平均、简单指数平滑、Holt指数平滑、一元线性回归、指数模型、多项式函数、Winter指数平滑、分解预测、ARIMA模型等。

11.2 平稳序列的预测

11.2.1 移动平均预测

使用最近k期的数据的均值预测下一时间点的数据。

11.2.2 简单指数平滑预测

Ft+1 = αYt+ (1-α)St，t期的实际值与t期的平滑值（?）加权平均。选取合适的α是关键。

11.3 趋势预测

11.3.1 线性趋势预测

（1）一元线性回归预测

       之前介绍的一元线性回归

（2）Holt指数平滑预测

       当时间序列存在趋势时，简单指数平滑的预测结果总是滞后于实际值。而Holt模型则改进了这个弱点（只适用于仅存在趋势成分，不包含季节成分）。

       平滑值：St= αYt+ (1-α)(St-1 + Tt-1)，消除因趋势产生的滞后

       趋势项更新：Tt= γ(St- St-1) + (1-γ)Tt-1，对趋势的修正

       未来第k期的预测值：Ft+k = St +kTt

11.3.2 非线性趋势预测

（1）指数曲线

       yt’ = b0eb1t

       对式子取对数，然后看作线性回归，用最小二乘法求参数。

（2）多阶曲线

       yt’ = b0 + b1t+ b2t2 +… + bktk

       对式子取对数，然后看作线性回归，用最小二乘法求参数。

11.3.3 残差自相关及其检验

       时间序列残差经常出现相邻两残差具有相同符号，这表明残差序列自相关，这种情况应该避免使用最小二乘法。

       判断残差之间是否自相关，一般使用Durbin-Watson检验（D-W检验）：

       H0：残差无自相关；H1：残差有自相关

       D-W检验统计量：d= Σ(et – et-1)2 /Σet2

11.4 多成分序列的预测

如果时间序列同时包含趋势、季节变动和随机波动等多种成分，可以使用下述方法。

11.4.1 Winter指数平滑预测

       时间序列中既含有趋势成分，又含有季节成分。

       平滑值：St= αYt/It-L+(1-α)(St-1 + Tt-1)

       趋势项更新：Tt= γ(St- St-1) + (1-γ)Tt-1

       季节项更新：It= δYt/St + (1-δ)It-L

       未来第k期的预测值：Ft+k = (St +kTt) It-L+k

11.4.2 引入季节哑变量的多元回归预测

时间序列中既含有趋势成分，又含有季节成分。可以将季节成分处理为哑变量，引入多元回归模型进行预测。例如数据按季度分为4类，就引入3个哑变量。

11.4.3 分解预测

先将时间序列的各个成分依次分解出来，再进行预测。（SPSS能直接进行分离）

11.5 Box-Jenkins方法：ARIMA模型

整合自回归移动平均（ARIMA）模型，主要运用于平稳序列或可平稳化的序列预测。

11.5.1 自相关与自相关图

时间序列观测值与之前时期的观测值之间的相关。时间序列的自相关程度由自相关系数来度量：rk = Σ(Yt– μy)(Yt-k - μy) /Σ(Yt – μy)2

11.5.2 Box-Jenkins方法的基本思想

白噪声序列：0均值，同方差且不相关。

选取合适的黑盒子（ARIMA模型），使其得到的预测误差是一个白噪声。不是去寻找自变量的方法。

11.5.3 ARIMA模型的识别

（1）自回归（AR）模型

       Yt = φ1Yt-1+φ2Yt-2 + … +φpYt-p + et

       如何检验一个实际的时间序列是否是AR序列，通常方法是观察时间序列的自相关图和偏自相关图。

       AR序列的自相关图和偏自相关图的典型特征是：它的自相关图单调递减逐步降为0或交替递减逐步将为0，而它的偏自相关图则具有明显的峰值（p个）。

（2）移动平均（MA）模型

       Yt = et + θ1et-1 + θ2et-2 + … + θqet-q，预测Yt时产生的预测误差作为自变量。

如何检验一个实际的时间序列是否是MA序列，通常方法是观察时间序列的自相关图和偏自相关图。

       MA序列的自相关图和偏自相关图的典型特征是：自相关图具有明显的峰值（q个），偏自相关图单调递减逐步降为0或交替递减逐步将为0。

（3）自回归移动平均（ARMA）模型

       Yt = φ1Yt-1+φ2Yt-2 + … +φpYt-p + et
+θ1et-1 + θ2et-2 + … + θqet-q

       如何检验一个实际的时间序列是否是ARMA序列，通常方法是观察时间序列的自相关图和偏自相关图。

       ARMA序列的自相关图和偏自相关图的典型特征是：自相关图和偏自相关图都是主键趋于0而不是突然变0，都是拖尾的。偏自相关函数中峰值个数代表AR的阶数，自相关函数的峰值个数代表MA的阶数。

（4）ARIMA（p, d, q）模型

       由于ARMA模型要求序列必须平稳，即时间序列中没有趋势、季节和循环成分。对于非平稳序列，需要修正使其平稳化，方法之一是进行差分（一阶）：ΔYt = Yt– Yt-1。

       如果一阶差分不能消除趋势，需要进行多次差分，即在一阶差分的基础上再进行一次差分，就是二阶差分，直到差分后的序列的自相关系数趋于0。

       平稳后再运用ARMA模型就称为ARIMA（p, d, q）模型。

       诊断模型是否选择正确，通常是考察残差序列的自相关图，看是否为白噪声。另一种方法是利用Box-Ljung统计量：Qm = n(n+2)Σ(rk2/n-k)~ χ2(m-p-q)。

第12章主成分分析和因子分析

12.1 主成分分析

12.1.1 主成分分析的基本原理

通过考察变量间的相关性，找到少数几个主成分来代表原来的多个变量，同时使它们尽可能保留原始变量的信息，达到降维的目的。

12.1.2 主成分分析的数学模型

       原始p个变量：x1，x2，…，xp，新的变量（主成分）：y1，y2，…，yp，有：

       y1 = a11x1+ a12x2 + … + a1pxp

       y2 = a21x1+ a22x2 + … + a2pxp

       … …

       yp = ap1x1+ ap2x2 + … + appxp

       选取Var(yi)最大的yi作为第一个主成分，一般所选主成分的方差综合占全部方差的80%以上就可以了。

12.1.3 主成分分析的步骤

       第一步：对原来的p个变量进行标准化，以消除变量水平和量纲的影响；

       第二步：根据标准化后的数据计算相关系数矩阵；

       第三步：求出相关系数矩阵的特征根，即主轴或方差，及对应的单位特征向量；

       第四步：确定主成分。

计算比较复杂，一般借助SPSS来完成。

12.2 因子分析

12.2.1 因子分析的意义和数学模型

       因子分析和主成分分析的目的一样，只是主成分分析中，有几个原始变量就有几个主成分，只是最后确定了少数几个。而因子分析则需要事先确定要找到几个成分，即因子，然后将原始变量综合为少数几个因子，以再现原始变量与因子之间的关系。

       原始p个变量：x1，x2，…，xp，k个因子：f1，f2，…，fk，有：

       x1 = a11f1+ a12f2 + … + a1kfk + ε1

       x2 = a21f1+ a22f2 + … + a2kfk + ε2

       … …

       xp = ap1f1+ ap2f2 + … + apkfk + εp

       度量变量xi的信息能够被k个公因子所解释的程度，可用k个因子对第i个变量的方差贡献率来表示，称为变量xi的共同度量：hi2 =Σj=1…kaij2，第j个因子的方差贡献率：gj2 =Σi=1…paij2。

12.2.2 因子分析的步骤

（1）数据检验

       判断数据是否适合作因子分析。

       检验变量之间是否足够相关，可以计算各变量之间的相关系数矩阵，若大部分小于0.3，就不适合作因子分析了。

       此外，还可以用Kaiser-Meyer-Olkin检验（KMO检验）和Bartlett球度检验。

（2）因子提取

       提出少数的几个因子，方法有：主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因子法。

（3）因子命名和解释

       对提取出的少数几个因子，给予物理意义的解释。如果解释不了，需要进一步作因子旋转。

（4）计算因子得分

       因子得分就是每个因子在每个样本上的具体取值。由下计算给出：

       f1 = b11x1+ b12x2 + … + b1pxp

       f2 = b21x1+ b22x2 + … + b2pxp

       … …

       fk = bk1x1+ bk2x2 + … + bkpxp

第13章聚类分析

这部分是我的研究方向，比较熟，就不再详细列出。

13.1 聚类分析基本原理

13.1.1 什么是聚类分析

区分下聚类与分类，在于类别未知。

13.1.1 相似性的度量

13.2 层次聚类

分裂与凝聚

13.3 K-means聚类

第14章非参数检验

14.1 单样本的检验

14.1.1 总体分布类型的检验

（1）二项分布检验

       原假设：抽取样本所依赖的总体与特定的二项分布无显著差异。

（2）K-S检验

       方法：将某一变量的累积分布函数F(x)与特定的分布函数F0(x)进行比较。可以检验正态分布、泊松分布、均匀分布、指数分布等。

       H0：F(x)= F0(x)；H1：F (x) ≠ F0(x)

       统计量：z= sqrt(n)D，D=max( |F(xi)-F0(xi)|，|F(xi-1)- F0(xi)|)

14.1.2 中位数的符号检验

       检验总体中位数是否等于某个假定的值。

       H0：M= M0；H1：M ≠ M0

       统计量：S+，S-。S+表示样本数据与M0差值为正的样本个数。

14.1.3 Wilcoxon符号秩检验

       符号检验只利用样本差异方向上的信息，未考虑差异大小。

       H0：M= M0；H1：M ≠ M0

       统计量：W+，W-。W+表示差异值为正的样本对应的秩和。秩为所有样本差异值的绝对值排序后的序号。

14.2 两个及两个以上样本的检验

14.2.1 两个配对样本的Wilcoxon符号秩检验

14.2.2 两个独立样本的Mann-Whitney检验

14.2.3 k个独立样本的Kruskal-Wallis检验

14.3 秩相关及其检验

14.3.1 Spearman秩相关及其检验

14.3.2 Kendall秩相关及其检验

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数学数据分析统计学读书笔记

相关文章推荐

新的分享

章节导航