伍德里奇计量经济学导论之计算机操作题的R语言实现(一些重要专题)
2015-11-29 20:25
323 查看
引言
本章内容介绍了多元线性回归一些好玩且实用的专题:改变自变量(因变量(对数自变量)当度量单位对因变量(自变量)、系数、t值、F值等的影响
自变量和因变量标准化以后B系数的解释
对数-水平模型下,B系数当精确解读以及二次模型来表明边际递增或递减当情况
调整的R方的好处以及缺点(这个倒是第一次见识)
构造估计值和预测值的一个置信区间
残差分析
本文代码和整理好的数据见这里
此篇博客开始,每一题上方都会来个小标题,表明该题涉及到当重要技术细节,以供参考。
C6.1 二次项模型的加入以及解释
data_kielmc<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/kielmc.csv',header = T) lm_kielmc<-lm(log(Price)~log(dist),data=data_kielmc) #预期 垃圾焚化炉离住房越远,价格越高,系数符号应为正。 summary(lm_kielmc) #log(Price)=8.25750+0.31722 log(dist) #距离相隔每增加百分之一,平均来说,价格变每上升0.31% #(2) lm_kielmc_1<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age,data=data_kielmc) summary(lm_kielmc_1) ## 系数从0.31722减小到0.0281887 ,因为增加了更多了更多变量来解释价格当变化,焚化炉距离远近对价格影响效应减弱。 #(3) lm_kielmc_2<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2),data=data_kielmc) summary(lm_kielmc_2) #log(Price)=-3.7907630+0.1897589log(dist)+ 1.9024997log(intst) -0.1128430I((log(intst))^2)... #加入log(intst)的二次项以后log(intst)一次项系数变得统计显著了,二次项系数也是统计显著的。 #在此估计模型下,住房价格与离告诉公路当距离呈现倒U型关系,在刚开始时距离越大价格越大,但是到达 #一个临界点以后,这个距离是-1.9024997/(2*-0.1128430)=8.429853 #从实际生活中也可以解释,住房在刚开始离得远时,远离告诉公路带来当噪声,但是远离太多时,交通就不方便了,因此价格就下降了 #(4) lm_kielmc_3<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2)+I((log(dist))^2),data=data_kielmc) summary(lm_kielmc_3) ##加入以后log(dist)以及(log(dist))^2都是不显著的,并没有使模型有更好 解释效果,所以不加入为好。
C6.2二次项系数对因变量的解释
data_wage1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage1.csv',header = T) #(1) lm_wage1<-lm(log(wage)~educ+exper+I(exper^2),data=data_wage1) summary(lm_wage1) #log(wage)=0.1279975+0.0903658educ+0.0410089 exper-0.0007136I(exper^2) #Adjusted R-squared: 0.2963 n=526 #(2) #在给定1%的显著性水平下,exper^2系数P值为1.42e-09,小于显著性水平,因此认为该项变量显著 #(3)当在第四年时 (0.0410089-2*0.0007136*4)*1*100 # 第五年的近似回报为3.53% #当在第19年时, (0.0410089-2*0.0007136*19)*1*100 #回报下降到1.38921% #(4) #求解 0.0410089-2*0.0007136*n=0 0.0410089/(2*0.0007136) #29年以后会降低工作预期 length(which(data_wage1[,'exper']>29))#111个大于29年的
C6.3二次项系数的置信区间
#(1) #对educ求导易得导数为B1+B3exper #(2) #教育的回报不取决exper意味着B3=0,则对立假设:在给定教育年限的情况下,B3>0 #(3) data_wage2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage2.csv',header = T) lm_wage2<-lm(log(wage)~educ+exper+educ:exper,data=data_wage2) summary(lm_wage2) #给定5%的显著性水平,B3的t值对应的P值为0.0365小于0.05,因此拒绝原假设,认为教育的回报取决于经验。 newvar<-(10*data_wage2$educ-data_wage2$educ*data_wage2$exper) lm_wage2_1<-lm(log(wage)~educ+exper+newvar,data=data_wage2) summary(lm_wage2_1) confint(lm_wage2_1,'educ') #置信区间是[0.06309736 0.08906172]
C6.4 二次项的最优值
data_gpa2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa2.csv',header = T) #(1) lm_gpa2<-lm(sat~hsize+I(hsize^2),data=data_gpa2) summary(lm_gpa2) #sat= 997.981+19.814hsize-2.131I(hsize^2) #Adjusted R-squared: 0.007169 n=4137 #由于二次项系数t值对应的P值小于0.001,所以该变量是统计显著的 #(2) #最优规模在模型的最大值处取到,该值为-19.814/(2*-2.131)*100 #最优规模为464.8991 #(3) #从调整的R方来看,该模型只解释了学术成绩变异的0.7%,这个解释较小,所以不是最优代表 #(4) lm_gpa2_1<-lm(log(sat)~hsize+I(hsize^2),data=data_gpa2) summary(lm_gpa2_1) #sat= 6.8960291 +0.0196029hsize-0.0020872I(hsize^2) ##最优规模在模型的最大值处取到,该值为-0.0196029/(2*-0.0020872)*100 #最优规模为469.598 #两者结论差异不大
未完待续。(抱歉,最近较忙,后期有时间再补上)
相关文章推荐
- Http
- 单链表的操作_约瑟夫环
- 单链表的操作_合并有序单链表
- 黑马程序员——javaSE_网络编程
- hdu 计算机学院大学生程序设计竞赛(2015’11)游乐场
- MBI 跨国网络传销 金字塔诈骗 解密
- hdu 计算机学院大学生程序设计竞赛(2015’11)油菜花王国(并查集)
- hdu 计算机学院大学生程序设计竞赛(2015’11)质方数
- hdu 计算机学院大学生程序设计竞赛(2015’11)投币洗衣机
- hdu 计算机学院大学生程序设计竞赛(2015’11)搬砖
- 网络编程
- 数据结构——二叉树 前序、中序、后序、层次遍历及非递归实现 查找、统计个数、比较、求深度的递归实现
- 2015 HDU 计算机学院 院赛 1003 玩骰子
- http://liuzhengyang.github.io/
- 沈阳东网科技和福建卓智网络面试心得
- HDU-计算机学院大学生程序设计竞赛(2015’11)1006 逆袭指数(枚举)
- 深度学习计算机视觉资料
- 如何使用github?github简单使用教程(转自http://blog.sina.com.cn/dashanliu)
- HDU-计算机学院大学生程序设计竞赛(2015’11)1005 ACM组队安排(排列组合)
- ASO优化总结(基于网络分享的知识总结归纳)