学号: 姓名: 题目:
摘要
回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。针对问题一,运用线性回归对数据进行分析,将得到的结果与显著性水平相比较,进行残差分析,得到线性回归方程的准确度以及对数据敏感度。针对问题二,运用曲线拟合模型对数据进行拟合分析。针对问题三,结合数据进行拟合,做出趋势图,得出趋势方程。
一、模型的准备
第一问:为确定实际投资额对国民生产总值和物价指数的依赖关系,取实际投资额为因变量y,国民生产总值和物价指数分别为自变量x1和x2.然后,进行数据描述分析。有散点图可见y线性依赖x1和x2,而且变化趋势很相似,怀疑x1与x2之间存在共线性性质,画x1-x2散点图1-1马上证实了这一点。
二、模型的建立
第一问:实际投资额
y可以表示成其中一个自变量的函数,选择国民生产总值x=x1,取线性模型y=a+bx做回归分析。
图1-2 线性回归
虽然,拟合优度R2接近1,F统计量概率值P<0.0001很小,但是参数估计的95%置信区间太大,而且含有零点,这意味着参数参数有可能取零值。特别是残差序列图2.1.5出现异方差现象,残差散布的范围随着序列变化增大。这与回归分析成立的前提“残差具有零均值和均方差”相矛盾。考虑到投资额和国民生产总值这些数据(xt,yt)都是来自同一个体的不同时间t的观测值,不同时间的数据之间可能存在相关性,这种相关性简称为自相关性。自相关性分析也称为自回归分析,是研究时间序列的常用方法。但不是对所有时间序列数据都可以直接进行自回归分析,希望利用过去的数据预测未来的关系,就必须假设两个变量之间未来的依赖关系与过去的有着某种相似性,统计上定义这种相似性为时间序列的平稳性。严格的说,称一个时间序列{rt}是平稳的,如果该序列满足:对任意的整数k,任意的的时间点t0,随机变量rt0,rt0+1,...,rt0+k是独立同分布的。也就是说该序列的均值和方差不会随时间的改变而变化。从上面的残差图可见,对于k=0,残差序列{rt=yt-a-bxt}的方差随时间逐渐增大,它不是一个平稳过程,自相关性也非常不好,因此不能采用自回归模型。
重新考虑到作为时间序列,实际投资额对国民生产总值的依赖可能存在滞后,国民生产总值对实际投资额的部分影响可能隔几年后才显现出来。经过多次试验,得到统计分析结果最佳的模型:
yt=a+b1xt-2+b2xt
对这个模型进行回归分析
结果表明,当年的国民生产总值与实际投资额是正相关的,前年的国民生产总值对实际投资额的影响是抑制的。
根据这个模型,只要知道国民生产总值就不难估计相应时间的实际投资额。 第二问:
对未来投资额yt 作预测,需先估计出未来的国民生产总值x1t 和物价指数 x2t 设已知 t=21时, x1t =3312,x2t=2.1938 基本回归模型
ˆt485.6720y
根据以上分析我们得到了投资额与国民生产总值及物价指数之间的多元回归方
程
Ù
得出的结论是投资额和国民生产总值及物价指数的关系显著。
第三问:为了方便分析出房地产对四川GDP 增速的影响效果,就需要利用数学建模的方法对 其进行定性和定量的分析 。本文在评估房地产对中国 GDP 的影响时,正是运用了这种方 法。通过四个不同的角度 ,分别建立模型。第一个角度是研究房地产投资总值与 四川GDP 总 值的关系系数,比较房地产投资增速与 四川GDP 总值的关系。第二个角度是研究房地产开发 投资总值和前一年 四川
GDP总值对今年 四川GDP 总值的贡献。第三个角度是研究房地产开发投资 总值同比增长数与 四川GDP总值同比增长数之间的关系 ,进而研究房地产投资总
值的增长率 与 四川GDP增长率的关系。第四个角度是研究房地产开发投资同比增长率每年上升(或下降) 的百分点和四川GDP 增长率每年上升(或下降)的百分点之间的关系 ,通过这种关系我们得 出房地产开发投资同比增长率每年上升(或下降)的百分点对四川GDP增长率每年上升(或 下降)的百分点 的影响。
的数据 图3-1 房地产投资额
用线性回归模型,根据中国统计年鉴发布的相关数据对国民生产总值与房地产开发投资总值之间的关系进行线性拟合,假设二者的线性关系为
m1 = a*m2+ b (a,b为常数系数)
用MATLAB软件编程求解,
用MATLAB软件编程运行得到国民生产总值与房地产开发投资总值线性相关关系图
用matlab编程运算得到m1 = 8×m 2 + 57306
未来国内GDP增长符合上图函数,在未来十年内将保持持续增长。 第四问:
表4-1 年份
全社会固定资产投资(亿GDP(亿元) CPI 元)
2014 512020.65 635910 101.6 2013 446294.09 588019 102.6 2012 374694.74 534123 102.6 2011 311485.13 484124 105.4 2010 251683.77 408903 103.3 2009 224598.77 345629 99.3 2008 172828.4 316752 105.9 2007 137323.94 268019 104.8 2006 109998.16 217657 101.5 2005 88773.61 185896 101.8 对GDP,全社会固定资产投资,CPI进行相关系数分析。 使用Pearson相关系数进行计算
计算结果:
表4-1全社会固定资产投资与GDP
列 1 列
2
列 1 列 2
1 0.99065
1
1
图4-1 固定资产投资与GDP关系
说明两者相关性很强,且呈线性相关。 表2-1 CPI与GDP
列 1 列 2 列 1 1 列 2 -0.0013 1 说明两者没有相关性。 三、参考文献
[1] 谭千蓉、林宗兵.数学实验与数学模型第一版.西南交通大学出版社,2009.11.
[2] 刘爱玉,SPSS 基础教程,上海:上海人民出版社2007 年
[3]章文波、陈红艳,实用数据统计分析及 SPSS12.0 应用(第一版),北京:人民邮电 出版社,2006 年
附录:
第一问matlab程序:x1=[596.7 637.7 691.1 756 799 873.4 944 992.7 1077.6 1185.9 1326.4 1434.2 1549.3 1718 1918.3 2163.9 2417.8 2631.7 2954.7 3073]; >> x2=[0.7167 0.7277 0.7436 0.7676 0.7906 0.8254 0.8679 0.9145 0.96011 1.0575 1.0575 1.1508 1.2579 1.3234 1.4005 1.5042 1.6342 1.7842 1.9514 2.0688];
>> y=[90.9 97.4 113.5 125.7 122.8 133.3 149.3 144.2 166.4 195 229.8 228.7 206.1 257.9 324.1 386.6 423 401.9 474.9 424.4]; >> subplot(1,3,1),plot(x1,y,'*'),title('x1-y') >> subplot(1,3,2),plot(x2,y,'*'),title('x2-y')
>> subplot(1,3,3),plot(x1,x2,'*'),title('x1-2')
>>A=[ones(size(x1))',x1'];
>> [d,bint,r,rint,stats]=regress(y',A);
>>plot(r,'*'),axis([0,20,-60,60]),title('residual') >> A=[ones(size(x1(3:end)))',x1(1:end-2)',x1(3:end)']; >> [d,bt,r,rt,sts]=regress(y(3:end)',A); >> plot(r,'*'),grid
第三问:m1=[90.9 97.4 113.5 125.7 149.3 195.97 268.15 344.38 450.87 510.08 701.45 914.5 1326.83 1451.7 1588.37 2194.63 2819.17 3266.4 3853 4380.09];
m2=[2443.21 2871.65 3241.47 3474.09 3649.12 3928.2 4293.49 4725.01 5333.09 6379.63 7385.1 8690.24 10562.39 12601.23 14151.28 17185.48 21026.68
23872.8 26392.07 28536.66];
a=polyfit(m1,m2,1) z=polyval(a,m1);
plot(m1,m2,'r+',m1,z,'r');