第2章 习 题
一、习题2.4 (1)回归模型
y i =β0+β1x i 1+β2x i 2+εi , i =1, 2, 15
调用
:
由此输出得到的回归方程为:
y =3. 45261+0. 49600X 1+0. 00920X 2
∧
由最后一列可以看出,使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。β0=3. 46521可以理解为该化妆品作为一种必需品每个月的销售量。当购买该化妆品的人数固定时,月收入没增加一个一个单位,改化妆品的销售数量将增加0.0092个单位。同理,当购买该化妆品的人均月收入固定时,购买该化妆品的人数每增加一千人,该化妆品的销售数量将增加0.49600个单位。
σ=
∧2
∧
SSE
是σ2的无偏估计,所以σ2
的估计值是4.7403. n -p
(2)调用
由此可到线性回归关系显著性检验:
H 0:β1=β2=0H 1:β1, β2至少有一个为0
的统计量F =
SSR /(p -1) MSR
=的观测值F 0=5679. 47, 检验的p 值
SSE /(n -p ) MSE
p 0=p H 0(F >=F 0)
SSR 53845
==0. 9989,R 2描述了由自由变量的线性关系函另外R 2=
SST 53902
数值所能反映的Y 的总变化量的比例。表明线性关系越明显。R 2越大,这些结果均表明Y 与X1,X2之间的回归关系高度显著。
(3)若置信水平α=0. 05,由t 0. 975(12) =2. 17881,利用参数估计值得
到β0, β1, β2的置信区间分别为:
8. 7458) )对β0, 3. 45216±2. 1781⨯2. 43065=3. 4516±5. 2942,即(-1. 8426,
对β1:0. 49600±2. 1781⨯0. 00605=0. 49600±0. 01318,即(0. 48, 0. 2580) 2198
0. 00920±2. 1781⨯0. 0009681=0. 00920±0. 0021:,即β2
(-0. 0071, 0. 00113)
(4)首先检验X1对Y 是否有显著性影:
2, 15 假设其约简模型为:y i =β0+β2x i 2+εi , i =1,
由观测数据并利用proc reg过程拟合此模型求得:
SSE (R ) =484. 88137 f R =15-2=13 SSE (F ) =56. 88357 f R =15-3=12
由F =
F 0=
[SSE (R ) -SSE (F )]f R -f F )
求得检验统计量的值为:
SSE (F ) /f F
由此拒绝原假设,所以x2对Y 有显著影响。 同理检验X2对Y 是否有显著性影:
2, 15 假设其约简模型为:y i =β0+β1x i 1+εi , i =1,
由观测数据并利用proc reg过程拟合此模型求得: SSE (R ) =31872 f R =15-2=13
484. 88137-56. 88357
=90. 3
56. 88357/12
p 0=p H 0(F >=F 0) =P (F (1, 13) >=F 0)
SSE (F ) =56. 88357 f R =15-3=12
由F =
F 0=
[SSE (R ) -SSE (F )]f R -f F )
求得检验统计量的值为:
SSE (F ) /f F
由此拒绝原假设,所以x2对Y 有显著影响。 检验X1、x2交叉项对Y 是否有显著性影:
2, 15 假设其全模型为:y i =β0+β1x i 1+β2x i 2+β3x i 1x i 2+εi , i =1,
检验X1、X2的交互作用是否显著即检验假设H 0:β3=0是否能被拒
31872-56. 88357
56. 88357/12 p 0=p H 0(F >=F 0) =P (F (1, 13) >=F 0)
绝。
由观测数据并利用proc reg过程拟合此模型求得:
SSE (F ) =56. 72 f F =15-4=11 SSE (R ) =56. 88357 f R =15-3=12
由F =
F 0=
[SSE (R ) -SSE (F )]f R -f F )
求得检验统计量的值为:
SSE (F ) /f F
由此接受原假设,也即X1*X2对Y 无显著影响,即模型中没有必要引进交叉项。
(5)关于Y 的预测:
对于给定的X1,X2的值(220,2500),由回归方程可以得到y 0的预测值:
y 0=3. 45261+0. 49600⨯220+0. 00920⨯2500=135. 573
T -1(X X ) y
0为了得到
T
,MSE =4.74030,求得y 的置信度为95%的置信区x =(1,220,2500) 0由
56. 88357-56. 72
=0. 0317
56. 72/11
p 0=p H 0(F >=F 0) =P (F (1, 11) >=0. 0317) =0. 138>0. 05
间为:
y ±t 0.975(12)=135.5726±2.1788⨯2.2818=135.5726±4.9716即(130.6010,140.5442)
(6)利用proc reg过程可根据要求输出学生化残差:
利用学生化残差,检验模型误差项的正态性假定的合理性: 1频率检验法: ○
学生化残差中有10/15=0.6667(约0.68)落在(-1,1)内;有13/15=0.8667(约0.87)落在(-1.5,1.5)内;有15/15=1(约0.95)落在(-2,2)内。由此可见,学生化残差在上述各区间内的频率与N (0,1)分布的相应概率相差均不大,因此模型误差项的正态性假定是合理的。 ②正态QQ 图
利用
通过sas 计算得到(r i , q i )
再利用proc corr 得到学生化残差与相应标准正态分布的分位数的pearson 相关系数矩阵。可以看出学生化残差与相应标准正态分布的分位数的相关系数为0.97710
为了进一步验证模型假设的合理性,利用proc gplot的做出的几个残差图:
们认为相应的线性回归模型以及误差的独立正态分布的假设是合理的。
二、习题2.6 回归模型
y i =β0+β1x i 1+β2x i 2+εi , i =1, 2, 15
调用proc reg过程, 得到参数估计的相关结果:
调用
:
根据上述回归模型,画出学生化残差正态QQ 图以及Y 的拟合值的残
残差与相应标准正态分布的分位数的相关系数为0.94091
相差较大。另外拟合值的图像也表明Y 与X1和X2不能满足线性关系。 (2)对因变量Y 做Box-Cox 变换,对不同的λ值,利用sas 系统中的
λλ
SSE (λ, Z ) λSSE (λ, Z )
由图可知SSE (λ, Z ) 在λ=0. 31时取得最小值,因此Box-Cox 变换中λ取0.31 ,记变换后的因变量为YY, 对拟合后的变量重新做线性回归,得到以下结果:
从图中可以看出,无论是学生化残差的正态QQ 图还是变换后因变量YY 的拟合值都有明显的改观。而且求得学生化残差与相应标准正态分布的分位数的相关系数达到了0.96990,并且检验p 值小于0.0001差分析,认为YY 与XX1、XX2之间的线性关系较为合理。
拟合YY 与X1、X2的线性回归模型,其方差分析以及参数估计如下所示。