线性回归
2015-06-02 11:45
876 查看
所有的模型都是错的,但是有一些是有用的。——George Box
一般残差的平均值为0
ρ^xy=sxysxsy\hat\rho_{xy}=\frac{s_{xy}}{s_xs_y}
(X,Y)(X,Y)服从联合正态分布,在H0:ρXY=0H_0:\rho_{XY}=0假设下,
T=ρ^xyn−21−ρ^2xy−−−−−−−√∼t(n−2)T=\hat\rho_{xy}\sqrt{\frac{n-2}{1-\hat\rho_{xy}^2}}\sim t(n-2)
服从tt分布。
⎧⎩⎨b^=sxys2xa^=y¯−b^x¯\begin{cases}\hat b=\dfrac{s_{xy}}{s_x^2}\\\hat a=\bar y-\hat b\bar x \end{cases}
残差:ε^j=yj−y^j\hat\varepsilon_j=y_j-\hat y_j
残差平方和:∑iε^2j=Q(a^,b^)\sum_i\hat\varepsilon_j^2=Q(\hat a,\hat b)
一元线性回归模型:Yj=a+bxj+εj,j=1,⋯,nY_j=a+bx_j+\varepsilon_j,j=1,\cdots,n
回归模型中残差项是一个随机变量,认为是独立同分布的,方差为σ\sigma
回归系数:直线的截距a,ba,b
σ2\sigma^2的最大似然估计1nQ(a^,b^)\frac 1n Q(\hat a,\hat b)不是无偏估计,修正之后与最小二乘估计相同。
回归平方和:{y^i}\{\hat y_i\}的平方和
ly^y^=∑j(y^i−y^¯¯)2l_{\hat y\hat y}=\sum_j(\hat y_i-\overline{\hat y})^2
总平方和:
lyy=(n−1)s2y=∑j(yj−y¯)2l_{yy}=(n-1)s_y^2=\sum_j(y_j-\overline y)^2
总平方和大于等于回归平方和。
lxx=(n−1)s2xl_{xx}=(n-1)s_x^2
lxy=(n−1)sxyl_{xy}=(n-1)s_{xy}
性质
y^¯¯=y¯\overline{\hat y}=\bar y
ly^y^=b^2lxxl_{\hat y\hat y}=\hat b^2l_{xx}
Y¯¯¯\overline{Y}和b^\hat b独立
平方和分解公式
lyy=ly^y^+Q=b^2lxx+Ql_{yy}=l_{\hat y\hat y}+Q=\hat b^2l_{xx}+Q
两个部分,一部分是模型可以解释的,另一部分是模型QQ解释不了的。统计软件中,R2=ly^y^lyyR^2=\dfrac{l_{\hat y\hat y}}{l_{yy}},值越大,模型越好。
计算方差
σ^2=1n−2Q=1n−2(lyy−b^2lxx)\hat\sigma^2=\frac1{n-2}Q=\frac1{n-2}(l_{yy}-\hat b^2l_{xx})
性质
b^∼N(b,σ2lxx)\hat b\sim N(b,\dfrac{\sigma^2}{l_{xx}})
a^∼N(a,(1n+x¯2lxx))σ2\hat a\sim N(a,(\dfrac1{n}+\frac{\bar x^2}{l_{xx}}))\sigma^2
n−2σ2σ^2∼χ2(n−2)\frac{n-2}{\sigma^2}\hat \sigma^2\sim \chi^2(n-2)
Y¯¯¯,b^,σ^2\overline {Y},\hat b,\hat\sigma^2相互独立
b^−bσ^/lxx√∼t(n−2)\frac{\hat b-b}{\hat\sigma/\sqrt{l_{xx}}}\sim t(n-2)
检验斜率bb,利用统计量T=b^−bσ^/lxx−−−√∼t(n−2)T=\dfrac{\hat b-b}{\hat\sigma/\sqrt{l_{xx}}}\sim t(n-2)
构造T=Y0−y^0η0∼t(n−2)T=\dfrac{Y_0-\hat y_0}{\eta_0}\sim t(n-2),η0=1+1n+(x0−x¯)2lxx−−−−−−−−−−−−−−−√\eta_0=\sqrt{1+\dfrac 1n+\dfrac{(x_0-\bar x)^2}{l_{xx}}}由此得到Y0Y_0的置信区间。
构造T=y^0−y^¯01n+(x0−x¯)2lxx−−−−−−−−−−−−√∼t(n−2)T=\dfrac{\hat y_0-\bar{\hat y}_0}{\sqrt{\dfrac 1n+\dfrac{(x_0-\bar x)^2}{l_{xx}}}}\sim t(n-2)计算y^0\hat y_0的置信区间。
回归分析
建立模型;检验残差。一般残差的平均值为0
相关系数
一组成对数据(x1,y1),⋯,(xn,yn)(x_1,y_1),\cdots,(x_n,y_n).定义两个样本标准差sx,xys_x,x_y及样本协方差sxy=1n−1∑i(xi−x¯)(yi−y¯)s_{xy}=\frac{1}{n-1}\sum_i(x_i-\bar x)(y_i-\bar y),则相关系数定义为ρ^xy=sxysxsy\hat\rho_{xy}=\frac{s_{xy}}{s_xs_y}
相关性检验
检验H0:ρxy=0H_0:\rho_{xy}=0,如果拒绝假设,则相关。(X,Y)(X,Y)服从联合正态分布,在H0:ρXY=0H_0:\rho_{XY}=0假设下,
T=ρ^xyn−21−ρ^2xy−−−−−−−√∼t(n−2)T=\hat\rho_{xy}\sqrt{\frac{n-2}{1-\hat\rho_{xy}^2}}\sim t(n-2)
服从tt分布。
回归直线
最小二乘估计,通过极小化的二次函数Q(a,b)Q(a,b)求得。⎧⎩⎨b^=sxys2xa^=y¯−b^x¯\begin{cases}\hat b=\dfrac{s_{xy}}{s_x^2}\\\hat a=\bar y-\hat b\bar x \end{cases}
一元线性回归
建立回归直线l:y^j=a^+b^xjl:\hat y_j=\hat a+\hat b x_j之后,利用回归直线进行预测。残差:ε^j=yj−y^j\hat\varepsilon_j=y_j-\hat y_j
残差平方和:∑iε^2j=Q(a^,b^)\sum_i\hat\varepsilon_j^2=Q(\hat a,\hat b)
一元线性回归模型:Yj=a+bxj+εj,j=1,⋯,nY_j=a+bx_j+\varepsilon_j,j=1,\cdots,n
回归模型中残差项是一个随机变量,认为是独立同分布的,方差为σ\sigma
回归系数:直线的截距a,ba,b
σ2\sigma^2的最大似然估计1nQ(a^,b^)\frac 1n Q(\hat a,\hat b)不是无偏估计,修正之后与最小二乘估计相同。
回归平方和:{y^i}\{\hat y_i\}的平方和
ly^y^=∑j(y^i−y^¯¯)2l_{\hat y\hat y}=\sum_j(\hat y_i-\overline{\hat y})^2
总平方和:
lyy=(n−1)s2y=∑j(yj−y¯)2l_{yy}=(n-1)s_y^2=\sum_j(y_j-\overline y)^2
总平方和大于等于回归平方和。
lxx=(n−1)s2xl_{xx}=(n-1)s_x^2
lxy=(n−1)sxyl_{xy}=(n-1)s_{xy}
性质
y^¯¯=y¯\overline{\hat y}=\bar y
ly^y^=b^2lxxl_{\hat y\hat y}=\hat b^2l_{xx}
Y¯¯¯\overline{Y}和b^\hat b独立
平方和分解公式
lyy=ly^y^+Q=b^2lxx+Ql_{yy}=l_{\hat y\hat y}+Q=\hat b^2l_{xx}+Q
两个部分,一部分是模型可以解释的,另一部分是模型QQ解释不了的。统计软件中,R2=ly^y^lyyR^2=\dfrac{l_{\hat y\hat y}}{l_{yy}},值越大,模型越好。
计算方差
σ^2=1n−2Q=1n−2(lyy−b^2lxx)\hat\sigma^2=\frac1{n-2}Q=\frac1{n-2}(l_{yy}-\hat b^2l_{xx})
性质
b^∼N(b,σ2lxx)\hat b\sim N(b,\dfrac{\sigma^2}{l_{xx}})
a^∼N(a,(1n+x¯2lxx))σ2\hat a\sim N(a,(\dfrac1{n}+\frac{\bar x^2}{l_{xx}}))\sigma^2
n−2σ2σ^2∼χ2(n−2)\frac{n-2}{\sigma^2}\hat \sigma^2\sim \chi^2(n-2)
Y¯¯¯,b^,σ^2\overline {Y},\hat b,\hat\sigma^2相互独立
b^−bσ^/lxx√∼t(n−2)\frac{\hat b-b}{\hat\sigma/\sqrt{l_{xx}}}\sim t(n-2)
检验斜率bb,利用统计量T=b^−bσ^/lxx−−−√∼t(n−2)T=\dfrac{\hat b-b}{\hat\sigma/\sqrt{l_{xx}}}\sim t(n-2)
构造T=Y0−y^0η0∼t(n−2)T=\dfrac{Y_0-\hat y_0}{\eta_0}\sim t(n-2),η0=1+1n+(x0−x¯)2lxx−−−−−−−−−−−−−−−√\eta_0=\sqrt{1+\dfrac 1n+\dfrac{(x_0-\bar x)^2}{l_{xx}}}由此得到Y0Y_0的置信区间。
构造T=y^0−y^¯01n+(x0−x¯)2lxx−−−−−−−−−−−−√∼t(n−2)T=\dfrac{\hat y_0-\bar{\hat y}_0}{\sqrt{\dfrac 1n+\dfrac{(x_0-\bar x)^2}{l_{xx}}}}\sim t(n-2)计算y^0\hat y_0的置信区间。
相关文章推荐
- XenAPI DOC
- hdu2612---Find a way
- [转贴]搜索引擎优化(SEO)菜鸟版@搜索引擎研究专案
- 解析properties文件
- 深入理解Java Class文件格式(五)
- AndroidStudio中aar文件引用
- ubuntu下hadoop2.6在eclipse上的配置
- PowerShell实现按条件终止管道的方法
- 创建对象及继承
- links_container_together
- 正则表达式30分钟入门教程
- HTTP状态码详解
- Vert.x
- 检查硬盘状态
- 利用Ajax进行用户登录的js代码
- 工厂方法模式(Factory Method Pattern)
- docker_work_with_images
- Android 实现记住用户名和密码的功能
- SharePoint 2013 迁移内容数据库最简单的配置方法
- 第十三周项目二 形状类族中的纯虚数函数