《统计学》读书笔记,第11-14章
2014-04-03 14:05
369 查看
第11章 时间序列预测
11.1 时间序列的成分和预测方法
一个时间序列由四种要素组成:趋势(T):时间序列在一段较长时期内呈现出来的持续向上或者向下的变动;
季节变动(S):时间序列呈现出以年为周期长度的固定变动模式;
循环波动(C):时间序列呈现出的非固定长度的周期性变动;
不规则波动(I):时间序列出去上述3者的随机波动。
对于不同的数据模式(T、S、C、I),不同的预测期、不同的数据要求,对应不同的数据预测方法:移动平均、简单指数平滑、Holt指数平滑、一元线性回归、指数模型、多项式函数、Winter指数平滑、分解预测、ARIMA模型等。
11.2 平稳序列的预测
11.2.1 移动平均预测
使用最近k期的数据的均值预测下一时间点的数据。11.2.2 简单指数平滑预测
Ft+1 = αYt+ (1-α)St,t期的实际值与t期的平滑值(?)加权平均。选取合适的α是关键。11.3 趋势预测
11.3.1 线性趋势预测
(1)一元线性回归预测之前介绍的一元线性回归
(2)Holt指数平滑预测
当时间序列存在趋势时,简单指数平滑的预测结果总是滞后于实际值。而Holt模型则改进了这个弱点(只适用于仅存在趋势成分,不包含季节成分)。
平滑值:St= αYt+ (1-α)(St-1 + Tt-1),消除因趋势产生的滞后
趋势项更新:Tt= γ(St- St-1) + (1-γ)Tt-1,对趋势的修正
未来第k期的预测值:Ft+k = St +kTt
11.3.2 非线性趋势预测
(1)指数曲线yt’ = b0eb1t
对式子取对数,然后看作线性回归,用最小二乘法求参数。
(2)多阶曲线
yt’ = b0 + b1t+ b2t2 +… + bktk
对式子取对数,然后看作线性回归,用最小二乘法求参数。
11.3.3 残差自相关及其检验
时间序列残差经常出现相邻两残差具有相同符号,这表明残差序列自相关,这种情况应该避免使用最小二乘法。判断残差之间是否自相关,一般使用Durbin-Watson检验(D-W检验):
H0:残差无自相关;H1:残差有自相关
D-W检验统计量:d= Σ(et – et-1)2 /Σet2
11.4 多成分序列的预测
如果时间序列同时包含趋势、季节变动和随机波动等多种成分,可以使用下述方法。11.4.1 Winter指数平滑预测
时间序列中既含有趋势成分,又含有季节成分。平滑值:St= αYt/It-L+(1-α)(St-1 + Tt-1)
趋势项更新:Tt= γ(St- St-1) + (1-γ)Tt-1
季节项更新:It= δYt/St + (1-δ)It-L
未来第k期的预测值:Ft+k = (St +kTt) It-L+k
11.4.2 引入季节哑变量的多元回归预测
时间序列中既含有趋势成分,又含有季节成分。可以将季节成分处理为哑变量,引入多元回归模型进行预测。例如数据按季度分为4类,就引入3个哑变量。11.4.3 分解预测
先将时间序列的各个成分依次分解出来,再进行预测。(SPSS能直接进行分离)11.5 Box-Jenkins方法:ARIMA模型
整合自回归移动平均(ARIMA)模型,主要运用于平稳序列或可平稳化的序列预测。11.5.1 自相关与自相关图
时间序列观测值与之前时期的观测值之间的相关。时间序列的自相关程度由自相关系数来度量:rk = Σ(Yt– μy)(Yt-k - μy) /Σ(Yt – μy)211.5.2 Box-Jenkins方法的基本思想
白噪声序列:0均值,同方差且不相关。选取合适的黑盒子(ARIMA模型),使其得到的预测误差是一个白噪声。不是去寻找自变量的方法。
11.5.3 ARIMA模型的识别
(1)自回归(AR)模型Yt = φ1Yt-1+φ2Yt-2 + … +φpYt-p + et
如何检验一个实际的时间序列是否是AR序列,通常方法是观察时间序列的自相关图和偏自相关图。
AR序列的自相关图和偏自相关图的典型特征是:它的自相关图单调递减逐步降为0或交替递减逐步将为0,而它的偏自相关图则具有明显的峰值(p个)。
(2)移动平均(MA)模型
Yt = et + θ1et-1 + θ2et-2 + … + θqet-q,预测Yt时产生的预测误差作为自变量。
如何检验一个实际的时间序列是否是MA序列,通常方法是观察时间序列的自相关图和偏自相关图。
MA序列的自相关图和偏自相关图的典型特征是:自相关图具有明显的峰值(q个),偏自相关图单调递减逐步降为0或交替递减逐步将为0。
(3)自回归移动平均(ARMA)模型
Yt = φ1Yt-1+φ2Yt-2 + … +φpYt-p + et
+θ1et-1 + θ2et-2 + … + θqet-q
如何检验一个实际的时间序列是否是ARMA序列,通常方法是观察时间序列的自相关图和偏自相关图。
ARMA序列的自相关图和偏自相关图的典型特征是:自相关图和偏自相关图都是主键趋于0而不是突然变0,都是拖尾的。偏自相关函数中峰值个数代表AR的阶数,自相关函数的峰值个数代表MA的阶数。
(4)ARIMA(p, d, q)模型
由于ARMA模型要求序列必须平稳,即时间序列中没有趋势、季节和循环成分。对于非平稳序列,需要修正使其平稳化,方法之一是进行差分(一阶):ΔYt = Yt– Yt-1。
如果一阶差分不能消除趋势,需要进行多次差分,即在一阶差分的基础上再进行一次差分,就是二阶差分,直到差分后的序列的自相关系数趋于0。
平稳后再运用ARMA模型就称为ARIMA(p, d, q)模型。
诊断模型是否选择正确,通常是考察残差序列的自相关图,看是否为白噪声。另一种方法是利用Box-Ljung统计量:Qm = n(n+2)Σ(rk2/n-k)~ χ2(m-p-q)。
第12章 主成分分析和因子分析
12.1 主成分分析
12.1.1 主成分分析的基本原理
通过考察变量间的相关性,找到少数几个主成分来代表原来的多个变量,同时使它们尽可能保留原始变量的信息,达到降维的目的。12.1.2 主成分分析的数学模型
原始p个变量:x1,x2,…,xp,新的变量(主成分):y1,y2,…,yp,有:y1 = a11x1+ a12x2 + … + a1pxp
y2 = a21x1+ a22x2 + … + a2pxp
… …
yp = ap1x1+ ap2x2 + … + appxp
选取Var(yi)最大的yi作为第一个主成分,一般所选主成分的方差综合占全部方差的80%以上就可以了。
12.1.3 主成分分析的步骤
第一步:对原来的p个变量进行标准化,以消除变量水平和量纲的影响;第二步:根据标准化后的数据计算相关系数矩阵;
第三步:求出相关系数矩阵的特征根,即主轴或方差,及对应的单位特征向量;
第四步:确定主成分。
计算比较复杂,一般借助SPSS来完成。
12.2 因子分析
12.2.1 因子分析的意义和数学模型
因子分析和主成分分析的目的一样,只是主成分分析中,有几个原始变量就有几个主成分,只是最后确定了少数几个。而因子分析则需要事先确定要找到几个成分,即因子,然后将原始变量综合为少数几个因子,以再现原始变量与因子之间的关系。原始p个变量:x1,x2,…,xp,k个因子:f1,f2,…,fk,有:
x1 = a11f1+ a12f2 + … + a1kfk + ε1
x2 = a21f1+ a22f2 + … + a2kfk + ε2
… …
xp = ap1f1+ ap2f2 + … + apkfk + εp
度量变量xi的信息能够被k个公因子所解释的程度,可用k个因子对第i个变量的方差贡献率来表示,称为变量xi的共同度量:hi2 =Σj=1…kaij2,第j个因子的方差贡献率:gj2 =Σi=1…paij2。
12.2.2 因子分析的步骤
(1)数据检验判断数据是否适合作因子分析。
检验变量之间是否足够相关,可以计算各变量之间的相关系数矩阵,若大部分小于0.3,就不适合作因子分析了。
此外,还可以用Kaiser-Meyer-Olkin检验(KMO检验)和Bartlett球度检验。
(2)因子提取
提出少数的几个因子,方法有:主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因子法。
(3)因子命名和解释
对提取出的少数几个因子,给予物理意义的解释。如果解释不了,需要进一步作因子旋转。
(4)计算因子得分
因子得分就是每个因子在每个样本上的具体取值。由下计算给出:
f1 = b11x1+ b12x2 + … + b1pxp
f2 = b21x1+ b22x2 + … + b2pxp
… …
fk = bk1x1+ bk2x2 + … + bkpxp
第13章 聚类分析
这部分是我的研究方向,比较熟,就不再详细列出。13.1 聚类分析基本原理
13.1.1 什么是聚类分析
区分下聚类与分类,在于类别未知。13.1.1 相似性的度量
13.2 层次聚类
分裂与凝聚13.3 K-means聚类
第14章 非参数检验
14.1 单样本的检验
14.1.1 总体分布类型的检验
(1)二项分布检验原假设:抽取样本所依赖的总体与特定的二项分布无显著差异。
(2)K-S检验
方法:将某一变量的累积分布函数F(x)与特定的分布函数F0(x)进行比较。可以检验正态分布、泊松分布、均匀分布、指数分布等。
H0:F(x)= F0(x);H1:F (x) ≠ F0(x)
统计量:z= sqrt(n)D,D=max( |F(xi)-F0(xi)|,|F(xi-1)- F0(xi)|)
14.1.2 中位数的符号检验
检验总体中位数是否等于某个假定的值。H0:M= M0;H1:M ≠ M0
统计量:S+,S-。S+表示样本数据与M0差值为正的样本个数。
14.1.3 Wilcoxon符号秩检验
符号检验只利用样本差异方向上的信息,未考虑差异大小。H0:M= M0;H1:M ≠ M0
统计量:W+,W-。W+表示差异值为正的样本对应的秩和。秩为所有样本差异值的绝对值排序后的序号。
14.2 两个及两个以上样本的检验
14.2.1 两个配对样本的Wilcoxon符号秩检验
14.2.2 两个独立样本的Mann-Whitney检验
14.2.3 k个独立样本的Kruskal-Wallis检验
14.3 秩相关及其检验
14.3.1 Spearman秩相关及其检验
14.3.2 Kendall秩相关及其检验
相关文章推荐
- 《你必须知道的495个C语言问题》读书笔记之第11-14章:ANSI C标准、库函数、浮点数
- 【读书笔记】统计学:从数据到结论 第六章
- 《Head First 统计学》读书笔记
- 《算法导论》读书笔记之第9章 中位数和顺序统计学
- 【读书笔记】统计学:从数据到结论 第八章
- lua程序设计第二版 读书笔记(11-14章)
- 《java编程思想》14章类型信息 读书笔记
- 《MySQL必知必会》读书笔记(二) 8~14章
- 现代统计学——读书笔记
- 【读书笔记】统计学:从数据到结论 第七章
- 《算法导论》读书笔记之第9章 中位数和顺序统计学 最坏情况是线性时间的选择算法
- 《统计学》读书笔记,第3-7章节
- 《算法导论》读书笔记之第9章 中位数和顺序统计学
- 反射 Inside Dynamics AX 4.0 14章 读书笔记
- 赤裸裸的统计学—读书笔记
- 统计学:从数据到结论(吴喜之)-- 读书笔记
- 《统计学基本概念和方法》读书笔记+读后感(1)
- 《统计学》读书笔记第8-10章
- 【读书笔记】统计学:从数据到结论 第十章
- 《算法导论》读书笔记之第9章 中位数和顺序统计学