您的位置:首页 > 其它

线性回归

2015-06-02 11:45 876 查看
所有的模型都是错的,但是有一些是有用的。——George Box

回归分析

建立模型;检验残差。

一般残差的平均值为0

相关系数

一组成对数据(x1,y1),⋯,(xn,yn)(x_1,y_1),\cdots,(x_n,y_n).定义两个样本标准差sx,xys_x,x_y及样本协方差sxy=1n−1∑i(xi−x¯)(yi−y¯)s_{xy}=\frac{1}{n-1}\sum_i(x_i-\bar x)(y_i-\bar y),则相关系数定义为

ρ^xy=sxysxsy\hat\rho_{xy}=\frac{s_{xy}}{s_xs_y}

相关性检验

检验H0:ρxy=0H_0:\rho_{xy}=0,如果拒绝假设,则相关。

(X,Y)(X,Y)服从联合正态分布,在H0:ρXY=0H_0:\rho_{XY}=0假设下,

T=ρ^xyn−21−ρ^2xy−−−−−−−√∼t(n−2)T=\hat\rho_{xy}\sqrt{\frac{n-2}{1-\hat\rho_{xy}^2}}\sim t(n-2)

服从tt分布。

回归直线

最小二乘估计,通过极小化的二次函数Q(a,b)Q(a,b)求得。

⎧⎩⎨b^=sxys2xa^=y¯−b^x¯\begin{cases}\hat b=\dfrac{s_{xy}}{s_x^2}\\\hat a=\bar y-\hat b\bar x \end{cases}

一元线性回归

建立回归直线l:y^j=a^+b^xjl:\hat y_j=\hat a+\hat b x_j之后,利用回归直线进行预测。

残差:ε^j=yj−y^j\hat\varepsilon_j=y_j-\hat y_j

残差平方和:∑iε^2j=Q(a^,b^)\sum_i\hat\varepsilon_j^2=Q(\hat a,\hat b)

一元线性回归模型:Yj=a+bxj+εj,j=1,⋯,nY_j=a+bx_j+\varepsilon_j,j=1,\cdots,n

回归模型中残差项是一个随机变量,认为是独立同分布的,方差为σ\sigma

回归系数:直线的截距a,ba,b

σ2\sigma^2的最大似然估计1nQ(a^,b^)\frac 1n Q(\hat a,\hat b)不是无偏估计,修正之后与最小二乘估计相同。

回归平方和:{y^i}\{\hat y_i\}的平方和

ly^y^=∑j(y^i−y^¯¯)2l_{\hat y\hat y}=\sum_j(\hat y_i-\overline{\hat y})^2

总平方和

lyy=(n−1)s2y=∑j(yj−y¯)2l_{yy}=(n-1)s_y^2=\sum_j(y_j-\overline y)^2

总平方和大于等于回归平方和。

lxx=(n−1)s2xl_{xx}=(n-1)s_x^2

lxy=(n−1)sxyl_{xy}=(n-1)s_{xy}

性质

y^¯¯=y¯\overline{\hat y}=\bar y

ly^y^=b^2lxxl_{\hat y\hat y}=\hat b^2l_{xx}

Y¯¯¯\overline{Y}和b^\hat b独立

平方和分解公式

lyy=ly^y^+Q=b^2lxx+Ql_{yy}=l_{\hat y\hat y}+Q=\hat b^2l_{xx}+Q

两个部分,一部分是模型可以解释的,另一部分是模型QQ解释不了的。统计软件中,R2=ly^y^lyyR^2=\dfrac{l_{\hat y\hat y}}{l_{yy}},值越大,模型越好。

计算方差

σ^2=1n−2Q=1n−2(lyy−b^2lxx)\hat\sigma^2=\frac1{n-2}Q=\frac1{n-2}(l_{yy}-\hat b^2l_{xx})

性质

b^∼N(b,σ2lxx)\hat b\sim N(b,\dfrac{\sigma^2}{l_{xx}})

a^∼N(a,(1n+x¯2lxx))σ2\hat a\sim N(a,(\dfrac1{n}+\frac{\bar x^2}{l_{xx}}))\sigma^2

n−2σ2σ^2∼χ2(n−2)\frac{n-2}{\sigma^2}\hat \sigma^2\sim \chi^2(n-2)

Y¯¯¯,b^,σ^2\overline {Y},\hat b,\hat\sigma^2相互独立

b^−bσ^/lxx√∼t(n−2)\frac{\hat b-b}{\hat\sigma/\sqrt{l_{xx}}}\sim t(n-2)

检验斜率bb,利用统计量T=b^−bσ^/lxx−−−√∼t(n−2)T=\dfrac{\hat b-b}{\hat\sigma/\sqrt{l_{xx}}}\sim t(n-2)

构造T=Y0−y^0η0∼t(n−2)T=\dfrac{Y_0-\hat y_0}{\eta_0}\sim t(n-2),η0=1+1n+(x0−x¯)2lxx−−−−−−−−−−−−−−−√\eta_0=\sqrt{1+\dfrac 1n+\dfrac{(x_0-\bar x)^2}{l_{xx}}}由此得到Y0Y_0的置信区间。

构造T=y^0−y^¯01n+(x0−x¯)2lxx−−−−−−−−−−−−√∼t(n−2)T=\dfrac{\hat y_0-\bar{\hat y}_0}{\sqrt{\dfrac 1n+\dfrac{(x_0-\bar x)^2}{l_{xx}}}}\sim t(n-2)计算y^0\hat y_0的置信区间。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: