第三节 最小二乘估计量的性质 - 范文中心

第三节 最小二乘估计量的性质

11/29

第三节 最小二乘估计量的性质

三大性质:线性特性、无偏性和最小偏差性 一、 线性特性的含义

线性特性是指参数估计值βˆ1和βˆ2分别是观测值Yt或者是扰动项μt的线性组合,或者叫线性函数,也可以称之为可以用Yt或者是μt来表示。 1、βˆ2的线性特征证明 (1)由βˆ2的计算公式可得:

ˆ=β2

∑xy

∑x

t2t

t

t2

t

=

∑x(Y-Y)=∑xY-Y∑x

∑x∑x

t

t

t

t

2

2

t

t

t

=

∑xY

∑x

t

=

⎛ ⎝

xt

∑x

2t

⎫Y⎪⎪t⎭

需要指出的是,这里用到了

因为xt不全为零,可设

bt=

xt

∑x

2t

,从而,bt不全为零,故βˆ2=∑btYt。这说明βˆ2是Yt的线性组

合。 (2)因为Yt

ˆ=β2=β1=β2

t

t

=β1+β2Xt+μt

,所以有

t

∑bY=∑b(β+βX+μ)

∑b+β∑bX+∑bμ

+∑bμ

t

1

2

t

t

2

t

t

t

t

t

t

这说明βˆ2是μt的线性组合。 需要指出的是,这里用到了

∑bt=∑bX

t

xt

∑∑

xt

2

x∑=

∑x

t2

=0

以及

t

t

=

2

xt

t

xtX

2

Xt=

2t

⎛xx+Xtt

2

∑xt⎝+X

2t

(

)⎫⎪

⎪⎭

=

∑x

2t

t

+

∑x

2t

∑x

2t

=

∑x∑x

t

∑x

∑x+0∑x

=1

2、βˆ1的线性特征证明 (1)因为βˆ1=Y

ˆ=Y-βˆX=1β12=

n

ˆX-β2

-X

,所以有

∑Y

t

(∑bY)

t

t

⎛1

-Xbt⎝n⎫⎪Yt⎭

1n-Xb

这里,令a=

,则有βˆ1=∑aYt

这说明βˆ1是Yt的线性组合。 (2)因为回归模型为Yt

ˆ=β1=β1

t

t

t

1

2

t

=β1+β2Xt+μt

t

,所以

∑aY=∑a(β+βX+μ) ∑a+β∑aX+∑aμ

t

2

t

t

t

t

因为∑at=∑⎛ -Xbt⎪=∑n

11n

-X

∑b

t

=1。而

atXt=

⎛1

-Xbt⎝n1⎫X=⎪t

n⎭

Xt-X

∑bX

t

t

X-X=0

所以,βˆ1=β1+∑atμt 这说明βˆ1是μt的线性组合。 至此,参数的线性特性证明完毕。

问题参数估计值线性特性的深层次含义是什么?要根据被解释变量、

随机扰动项和的随机性来理解。 二、 无偏性的含义

所谓无偏性是指估计值的均值等于真实值。在这里,无偏性是指参数估计值βˆ1和βˆ2的期望值分别等于总体参数β1和β2。其数学上要求是

ˆ=β和Eβˆ=β。 Eβ1122

()()

证明:根据参数估计值的线性特征,我们推导出:

ˆ=β+β∑atμt,所以有: 11

∑aμ)=E(β)+E(∑aμ)

=E(β)+∑E(aμ)=E(β)+∑(E(a)∙E(μ))

t

t

1

t

t

1

t

t

1

t

t

ˆ=E(β+Eβ11

()

=E(β1)

相似地,βˆ2

=β2+∑btμt

t

t

,所以有

2

t

t

∑bμ)=E(β)+E(∑bμ)

=E(β)+∑E(bμ)=E(β)+∑(E(b)∙E(μ))

2

t

t

2

t

t

ˆ=E(β+Eβ22

()

=E(β2)

三、 最优性(有的书本上直接称之为最小方差性)的含义 最优性是指用最小二乘法得到的参数估计值βˆ1和βˆ2估计中得到的方差最小。

根据上述的定义,我们可以任意假设βˆ*2是用其他方法得到的总体参数

ˆ β2

因为βˆ*2具有线性特性,我们可以得到:

ˆ=β2

*

∑cY

t

t

=

∑c(β

t

1

+β2Xt+μt)

ˆ*=EEβ2=

t

1

()

(∑cY)

t2

tt

t

=E

t

(∑c(β

tt

1

+β2Xt+μt))

∑cE(β+βX+μ)

=∑cβ+∑cE(βX)+∑cE(μ)=β∑c+∑cβE(X)+0=β∑c+β∑cX

t

1

2

t

t

1

t

t

2

t

1

t

2

t

t

又因为βˆ*2是用其他方法得到的总体参数βˆ2

ˆ*=β Eβ22

()

所以由上述两个结果,可以得到:

β1∑ct+β2∑ctXt=β2

上述式子要成立,必须同时满足两个条件,即

∑c

t

=0和∑ctXt=1

现在求βˆ*2的方差:

ˆ*=var(varβcY-E∑ctYt)=E⎡2⎣∑tt=E⎡∑ctYt-E⎣=E⎡∑ctYt-

2

()

(∑

ctYt)⎤

2

(∑

ctYt)⎤=E⎡∑ctYt-(∑ctE(Yt))⎤

⎦⎣⎦

2

22

ˆ⎤=E⎡ˆ⎤ctYcY-Yt⎦t

⎣∑tt⎦

2

()

2

=E⎡⎣∑ctμt⎤⎦=E(c1μ1+c2μ2+⋅⋅⋅+ctμt)=E⎡

⎣=

((c1μ1)

2t

2

+(c2μ2)+⋅⋅⋅+(ctμt)

22

)+((cμcμ

1

12

2

+c1μ1c3μ3+⋅⋅⋅)+(c2μ2c3μ3+c2μ2c4μ4+⋅⋅⋅)+⋅⋅⋅)⎤

∑c

E(μt

2

)+∑∑cμE(μμ)

t

s

t

s

因为根据假设条件(常数方差和非自相关,即

var(μt)=E(μt-E(μt))=E(μt

2

2

)=σ和

2u

cov(μt,μs)=E[(μt-E(μt))(μs-E(μs))]=E[(μt-0)(μs-0)]=E(μtμs)=0

所以,有

222ˆ*=σ2

varβc=σc-b+b⎡⎤()2u∑tu∑⎣ttt⎦

()

2

u

∑(c

t

-bt)+σ

2

-bt)⎤⎦

2

u

∑b

2t

+2σ

2u

∑⎡⎣b(c

t

t

*

βˆ2方差的最后一项为

∑⎡⎣b(c

t

t

-bt)⎤⎦=xt

-⎪⎪⎭

t

∑bc-∑b

tt

2t

=

∑∑∑∑

⎛ct ⎝1xt1xt1xt

222

∑x

2t

⎛ ⎝

xt

∑x

2t

⎫⎪⎪⎭

2

=

(∑cx

t

-1)

=

(∑ctXt-X-1)

()

=

(∑cX

t

t

-X

∑c

t

-1

)

=0

这是因为∑ct=0和∑ctXt=1

2

因此,有var(βˆ*2)=σu2∑(ct-bt)很明显,当ct

=bt

+σu

2

∑b

2t

时,βˆ*2方差最小,此时,最小值为var(βˆ*2)=σu2∑bt2。

ˆ =β2

而在此时,有βˆ*2=∑ctYt=∑btYt即两个估计值相等。

因为βˆ*2的最小方差等于βˆ2的方差,即var(βˆ*2)≥var(βˆ2),因此,我们说,

ˆ在所有线性无偏估计中的方差最小,且最小方差为: β2ˆ=σvarβ2

()

2

u

∑b

2t

=

σu

22

∑x

t

同理,我们可以证明,βˆ1在所有线性无偏估计中的方差最小,且参数估计值的方差为:

ˆ=varβ1

()

σu

2

(∑X)

2

t2

n∑xt

由此,说明,最小二乘估计具有BLUE(best linear unbiased estimation)性质。从而在统计学和计量经济学中得到广泛应用。

第四节 系数的显著性检验

一、 系数估计值的特性:

1、根据系数估计值的线性特性,我们知道系数估计值是Yt和μt的线性组合。又因为Yt和μt都服从正态分布,所以,我们可以自然得到两点:一是系数估计值是随机变量(这里是在数学上再次予以证明);二是系数估计值服从正态分布。从而,可以用随机变量的一些数字特征来表示。通常,我们采用的是均值与方差。 系数估计值的均值是多少呢?

根据系数估计值的无偏性,我们知道,E(βˆ1)=β1,E(βˆ2)=β2。这说明系数估计值和

βˆ1

ˆβ2

这两个随机变量的数学期望(均值)分别等

于总体参数(实际值)。

系数估计值的方差又是多少呢?

根据系数估计值的最小方差性的证明,我们得到了其方差,即有

ˆ=varβ1

()

σu

2

(∑X)

2

t2t

n∑x

ˆ=σvarβ2

()

2

u

∑b

2t

=

σu

22

∑x。

t

1

ˆ和βˆ这至此,我们可以用随机变量的数学期望和方差来刻画β2

ˆ服从均值为β、方差为两个随机变量的分布,即有:β1

1

σu

2

(∑X)

2

t2

n∑xt

正态分布;而βˆ2服从均值为β2、方差为

σu

2

x

2t

的分布。用数学的语言

22

2⎛σu(∑Xt)⎫⎛σu⎫ˆˆ⎪和β2 N β2,可以描述为:β1 N β1,。 22⎪ ⎪ ⎪n∑xt

∑xt⎭⎝⎝⎭

可以明显看出的是,在系数的描述中,方差中含有随机扰动项的方差,其他我们可以得到。随机扰动项是总体回归模型中的误差项,

无法得到,只能对其估计。 二、 随机误差项方差的估计 因为总体回归模型为:Yt

=β1+β2Xt+μt

而样本回归模型为:Y

t

ˆ+βˆX+e =β12tt

t

从形式上看,样本回归模型中的残差e可以看作随机扰动项进一步,残差et的方差可以作为随机扰动项μtμt的估计值。方差σ的估计值。

2

u

样本回归模型为:Y

t

ˆ+βˆX+e =β12ttˆ+βˆX =β12t

样本回归直线为:Yˆ

t

样本回归模型的左右两边减去样本回归直线的左右两边,可得:

ˆ=e,把这个式子重新安排一下,可以得到: Yt-Ytt

ˆ=Y-Y-Yˆ-Yet=Yt-Yttt

()()

t

t

现在,重点要求的是e的两个部分,即(Yˆ部分知道之后,才能求e的方差。

t

-Y

)和(Y

t

-Y

)。这两

对样本回归模型Y有:

t

ˆ+βˆX+e两边分别对=β12tt

t求和,再除以n,

ˆ+βˆX+eYt=β12tt⇒⇒⇒

∑Y

11

t

=

∑βˆ+∑βˆ

1

2

Xt+

∑e

t

∑n∑n

Yt=Yt=

11

∑n∑n

ˆ+β1

1

∑n

ˆX+β2t

1

e∑n1

t

t

ˆ+βˆ⨯1β12

∑n

Xt+

e∑n

ˆ+βˆX+1⇒Y=β12

n

∑e

t

由前边的正规方程组,我们曾经知道,点(X,Y)在样本回归直线上,用数学的语言来讲,就有:Y

ˆ+βˆXˆ=βYt12tˆ+βˆXY=β12

ˆ+βˆX=β12

,因此,有

,进而,有

ˆX-Xˆ-Y=βYt2t

()=βˆx

2

t

对总体回归模型Y有:

Yt=β1+β2Xt+μt⇒⇒⇒

t

=β1+β2Xt+μt

两边分别对t求和,再除以n,

∑Y

1n1n

t

=

∑β

11

1

+

∑β

β1+

2

Xt+

∑μ

t

∑Yt=∑Yt=

∑n∑n

1

∑n

β2Xt+

1

1

μ∑n

1

t

t

β1+β2⨯

1n

∑n

μ=

1

Xt+∑μt

μ∑n

⇒Y=β1+β2X+

μt−−n−−→Y=β1+β2X+μ

所以,由

Yt=β1+β2Xt+μtY=β1+β2X+μ

,可得,

Yt-Y=β2Xt-X+μt-μ=β2xt+μt-μ

()()()

将两部分结合起来,现在,我们可以得到:

ˆ=Y-Y-Yˆ-Yet=Yt-Ytttˆxˆ-Y=βYt2t

Yt-Y=β2xt+μt-μ

()()

)

(

可以得到:e=(β

t

2

ˆx+μ-μ-β2tt

)((从这个式子我们可以看出),

什么呢?)至此,已经将残差与扰动项联系起来了。 由此,我们可以得到:

∑e

=

2t

=

∑((

2

ˆx+μ-μβ2-β2tt

)(

))

2

2

∑((

ˆxβ2-β2t

))∑(

+xt+

2

2

μt-μ

)+∑2(β

2

2

ˆx∙μ-μ-β2tt

)(

)

ˆ=β2-β2

()∑∑(

μt-μ

)

ˆ+2β2-β2

()∑x(μ

t

t

)

进一步,有:

E(∑et=

2

)

=E

((

ˆβ2-β2

)∑

2

xt+

2

∑(

2

μt-μ

)

2

ˆ+2β2-β2

ˆ-β2

()∑x(μ

t

t

t

t

))

∑x

2t

ˆEβ2-β2

()

2

+E

(∑(μ-μ))+2E((β

t

2

)∑x(μ

))

在这三项当中,有:

ˆEβ2-β2

()

2

ˆ-β=Eβ22

()

2

ˆ-Eβˆ=Eβ22

(())

2

2

ˆ=σu

=varβ22

∑xt

()

σu

2

2

所以,第一项为∑x

2t

ˆEβ2-β2

()=∑x

2t

x

2

t

=σu

2

第二项为:

EE

(∑(μ-μ))=E(∑μ

2

t

2t

+

∑μ

2

-

∑2μ

E(μt

⎫⎪⎭

t

μ

)(

2

(∑

2u

μt

2

)+E

(∑

μ-2μ∑μt=1⎫

μt⎪-2

n⎭

2t

2

2

)

2

)+Enμ-2μ∑μt

)

=nσ

⎛⎛1

+E n

⎝n⎝

∑∑

t

μt∙∑μt⎪

2

⎛12

=nσu+E

⎝n⎛12

=nσu-E

⎝n=nσu-=nσu-=nσu-=nσu-=nσu-

222222

(∑μ)(∑

-⎫⎭

2n

(∑μ)

⎫⎪⎭

μt)⎪

2

2

1n1n1n11n

E

(∑

μt)

E(μ1+μ2+⋅⋅⋅+μt)E(μ1+μ2+⋅⋅⋅+μt)

2

2

222

E⎡(μ1+μ2+⋅⋅⋅+μt)+(μ1μ2+μ1μ3+⋅⋅⋅)+(μ2μ3+μ2μ4⋅⋅⋅)+⋅⋅⋅⎤

⎦n⎣

E

2

(∑μ)-nE(∑∑(μμ))

2t

t

s

1

=nσu-σu-=(n-1)σu

2

1n

∑∑E(μμ)

t

s

第三项为:

2E

((β

2

ˆ-β2

)∑x(μ

t

t

)))

=2E⎡(∑btμt)∑xtμt-μ⎤⎣⎦=2E⎡(∑btμt)⎣

(

(∑xμ-∑xμ)⎤⎦

t

t

t

=2E⎡(∑btμt)(∑xtμt)-(∑btμt)⎣

(∑xμ)⎤⎦

t

=2E⎡(∑btμt)(∑xtμt)⎤-2E⎡(∑btμt)μ∑xt⎤⎣⎦⎣⎦=2E⎡⎣(b1μ1+⋅⋅⋅btμt)(x1μ1+⋅⋅⋅xtμt)⎤⎦-2E

()

(∑bμ)E(μ∑x)

t

t

t

22

=2E⎡(b1x1μ1+⋅⋅⋅+btxtμt)+(b1μ1x2μ2+⋅⋅⋅+b1μ1xtμt)+⋅⋅⋅⎤-2∑E(btμt)Eμ∑xt

⎣⎦

()

=2E∑btxtμt+2E=2∑btxtE(μt=2∑btxtσμ

2

2

2

2

(∑∑bxμμ)-2∑(bE(μ))E(μ∑x)

t

s

t

s

t

t

t

t

s

t

s

)+2∑∑bxE(μμ)-0

=2σμ∑btxt=2σμ

2

故有E(∑e)=σ

2t

2

μ

+(n-1)σμ-2σμ=(n-2)σμ

222

,也就是说

σμ=

2

1(n-2)

E(∑et

2

2

)

⎛∑et2⎫

=E

(n-2)⎪⎪⎝⎭

2

2

2

2

如令S

2

=

(n-2)

∑e,则意味着ES=σ。这说明S是σ的无偏估

()μμ

t

计量。前面,我们已经求得

22

2⎛σu(∑Xt)⎫⎛σu⎫ˆˆˆ⎪和β2 N β2,β1 N β1,β。在⎪122 ⎪ ⎪n∑xtx∑t⎭⎝⎝⎭

2

μ

和βˆ的方差中都含

2

有未知量σ。这里,我们证明了S是σ的无偏估计量,因此,

2

可以用S

2

=

(n-2)

∑e作为σ的估计值,这样,代入得到βˆ和βˆ的μ2

t

2

1

2

方差的估计值分别为:

S

2

ˆβ

=

S

1

∑X和S

β

n∑x

2t

2

2t

=

2

S

2

xt

2

S=

,Sβˆ

=

1

Sβˆ

=

2

分别称为回归模型的标准差、参数

ˆ和βˆ的标准差。 估计值β

1

2

知道了估计值的方差估计值,就可以对参数进行显著性检验,也可以估计总体参数的置信区间。 二 参数估计的显著性检验

以上一节家庭消费支出和收入之间的关系的例子来说明,通过选取样本,我们得到了总体参数β和β的估计值分

1

2

别为βˆ和βˆ。通过这个估计值,我们知道了家庭消费支出和

1

2

收入的具体数量关系。现在,需要知道的是,通过样本得到的估计值能够正确地反映总体参数吗?这需要通过假设检验来做出判断。 1、 关于假设检验

假设检验指利用样本得到的信息来判断总体是否具有某种制定的特征。例如:某药品生产线上规定,每片药片的净重是400毫克,标准差是4毫克。今连续检查20片药片,平均药片重量为395.4毫克。问药片的重量是否已经偏离了额定净重值?

假设:对总体分布特征的假设

假设检验:根据样本信息来判断总体分布是否具有指定的特征,这个过程叫假设检验。

就家庭消费支出而言,我们关注的是家庭消费支出与收入之间是否真的存在回归关系,也就是说我们关注总体参数

β1和β2是否不等于零。因此,我们这里的假设是对总体参数

的假设,我们这里的检验是对总体参数的假设检验,我们要运用的假设检验的工具是用样本工具得到的与βˆ和βˆ有关的

1

2

检验的工具。这就是用样本信息来推断总体。

1、 对总体均值的假设检验

因为我们关注的是解释变量和被解释变量之间的关系是否真实存在,因此,我们需要检验的是总体均值是否为零。对总体均值的假设检验可分三种情况:

(1) 总体服从正态分布,总体方差已知,样本大小无限制 (2) 总体总体分布未知,总体方差未知,大样本 (3) 总体服从正态分布,总体方差未知,小样本

我们这里符合的是总体服从正态分布,总体方差未知,小样本。

2、 用什么来检验?(检验工具,统计量) 我们已经知道,参数估计值满足:

22

2⎛σu(∑Xt)⎫⎛σu⎫ˆˆˆ⎪和β2 N β2,βˆ1和ββ1 N β1,,要尽可能利用关于⎪222 ⎪ ⎪n∑xtx∑t⎝⎭⎝⎭

的信息。将βˆ和βˆ由正态分布转化为标准正态分布统计量:

1

2

Z=

ˆ N(0,1)和

Z=

ˆ1

N(0,1)

在这两个统计量中,var(βˆ)和var(βˆ)我们都不知道,原因在于

2

σ

2

u

未知。但我们前边已经证明S

2

=

(n-2)

∑e是σ的无偏估计量。

t

2u

2

因此,对于大样本情况,我们可以用S

2

=

(n-2)

∑e代替σ,进而

t

2u

2

求得var(βˆ)和var(β

ˆ)以及S

1

2

ˆβ1

=

Sβˆ

=

2

这样,

Z为:Z

=

ˆ N(0,1)和

Z=

ˆ N(0,1)

可以进一步转化

ˆ-ββ11

Sβˆ

1

N(0,1)和Z≈

ˆ-ββ22

Sβˆ

2

N(0,1)。

从而可以利用这两个统计量对总体参数β和β进行检验。(什

1

2

么含义)就是说,我们可以对比如β

2

=

α

进行检验。如何检验

呢?就是考察我们算出来的统计量Z

=

ˆ=

ˆ是否服从

正态分布。对于一元线性回归模型而言,我们关心的是解释变量能否解释被解释变量,在数学上这表现为β立。

因此,我们可以进行下假设: 零假设 H备择假设 H

2

≠0

是否成

:β2=0 :β2≠

1

在零假设条件下,Z

ˆ=

ˆ服从标准正态分布,我们用

这个统计量进行检验。

在一般情况下,样本容量不满足大样本条件,这时要用t统计量,所做的检验称之为t分布检验。这时t

统计量为:

t=

ˆ-=

ˆ-=

ˆ,其服从自由度为(n-2)的t分布。

关于t分布

t分布的含义是随机变量落入一定区域的概率。给定显著性水平α和自由度(n-2),则t落入区间(-t内的概率为:P{-tt落在(-t

αα2

α2

(n-2),tα2(n-2))

(n-2)

,也可以写作:

α

2

(n-2),tα2(n-2))区域之外的概率为α

P{t>tα(n-2)}=αP{t

,此式子等价于。见下图。

P{t>tα2(n-2)}=

α

2

-tα (n-2) 0 tα (n-2)

很显然,如果计算出来的这时t统计量为:

t=

t统计量小于临界值),则可以认为原

假设成立,即β

2

=0

=

反之,如果计算出来的这时t

统计量为:t则可以认为备择假设成立,即β

≠0。

>tα(n-2),

2

因此,我们通常的希望是t统计量值大于临界值。t统计量值我们可以根据样本计算出来,而临界值可以通过查表得

到。

问题:t值与P值的关系是什么?

相应地,我们可以对总体参数值β进行检验。过程为:

1

零假设为:H

:β1=0

1

备择假设为: H计算统计量t=

ˆ:β2≠0

α查t分布表,得出临界值t若t

(n-2)

>tα2(n-2),则拒绝零假设,接受备择假设,即认为β2≠0

三、 总体参数的置信区间 1、β的置信区间

1

由P{-t得:

α2

(n-2)

,将t=

ˆ-ββ11

Sβˆ

1

代入概率公式,可

⎧⎫ˆ-ββ⎪⎪11

P⎨-tα2(n-2)

Sβˆ

⎪⎪⎩1⎭

{

ˆ-t⇒P{-βˆ-t⇒P{β

11

ˆ-β

1

α2

ˆ(n-2)Sβˆ

11

αˆ+t(n-2)Sβˆ

2

}=1-α

+t(n-2)S}=1-α(n-2)S}=1-α

1

αˆβ1

ˆβ1

用概率表述为:总体参数β

1

ˆ在区间⎡β(⎣

1

ˆ+t(n-2)S⎤-tα(n-2)Sβˆ,βˆ1α2β11⎦

1

)()内的概率为1-α。

)包含总体参数

ˆ统计表述:区间⎡β(⎣

ˆ+t(n-2)S⎤-tα(n-2)Sβˆ,βˆ1α2β11⎦

)(

β1的概率为1-α。

1

通常说,总体参数β的1-α置信区间为:

ˆ-t(n-2)S,βˆ+t(n-2)S⎤⎡β

ˆˆ1α1α2ββ11⎣⎦

2

()() )

2、相似地,总体参数β的1-α置信区间为:

ˆ-t(n-2)Sˆ+t(n-2)S⎡β⎤,βˆˆ2α22αββ22⎣⎦

()(

由这两个区间,可以推断总体回归线所处的区域。 四、决定系数(可决系数)

评价回归直线对观察值拟合的好坏,拟合优度是一个重要的指标。显然,若观测点离回归直线近,则拟合程度好,反之,则拟合程度差。测量拟合优度的统计量是可决系数(决定系数)

现由一个恒等式开始。

ˆ-Y)+(Y-Yˆ) Yt-Y=(Yttt

这个式子把解释变量的总偏差Y或者叫可解释偏差(Yˆ

t

t

-Y

分解成两部分:回归偏差

ˆ)两部分之和。 -Y)和残差(Yt-Yt

可解释偏差是由样本回归直线决定的,残差则是随机的。显然,由样本回归直线解释的部分越大,则残差越小,样本回归直线与样本值的拟合优度就越好。而要从总体上反映样本回归方程对所有样本点的拟合的好坏,必须求和,考虑到正负抵消的问题,可以求平方和。 总离差平方和:TSS=∑(Y 回归平方和:ESS=∑( 残差平方和:RSS=∑(

t

-Y

2

)

2

ˆ-YYtˆYt-Y

) )

2

现在推导三者之间的关系:

ˆ-Y)+(Y-Yˆ)Y-Y=(Y

t

t

t

t

⇒===

∑(

Yt-Y

)∑

=

2

ˆ-Y)+(Y-Yˆ)⎤⎡(Ytt⎦⎣t

2

∑ˆ-Y)2+(Y-Yˆ)2+2(Yˆ-Y)(Y-Yˆ)⎤⎡(Ytttttt⎦⎣ˆ-YYtˆ-YYt

∑(∑(

)+∑()+∑(

2

2

ˆYt-YˆYt-Y

))

2

+2

∑(Yˆt-Y)(Yt-Yˆt)

2

这里有:

ˆ-Y)(Y-Yˆ)2∑(Ytttˆ+βˆX-Ye=2∑β12tt

ˆˆ=2βe+2βeXt-2Y∑et

1∑t2∑t=(0会议正规方程组)

()

所以有∑(Y

t

-Y

)=∑(

2

ˆ-YYt

)+∑(

2

ˆYt-Y

)。即:

2

总离差平方和=回归平方和+残差平方和。

用公式表示为:TSS=ESS+RSS,ESS表示可以由解释变量说明的偏差部分,RSS表示可以由残差说明的偏差部分。 显然,ESS在TSS中所占的比例越大,RSS所占的比例越小,则参数估计值的显著性越强,样本回归直线与样本观测值拟合得越好。因此,可以用ESS在TSS中所占的比例说明回归直线与样本观测值的拟合程度。也即总离差中可以由回归方程说明的部分。可决系数或拟合优度可以定义为:

R=

2

ESSTSS

=

∑(

)

∑(Y-Y)

ˆ-YYt

t

2

2

可决系数的取值范围为:R

R

2

2

⊂[0,1]

变化的含义是什么?

四、 相关分析

1、 回归分析和相关分析的区别 回归分析:性质、变量要求

相关分析:相关关系,不是因果关系。变量要求不同 2、 相关分析的分类:

线性相关:直观上讲,样本点集中分布在一条直线附近。直线斜率为正,为正相关。直线斜率为负,则为负相关。 非线性相关:样本点分布在一条曲线周围。 3、 相关程度的度量

一般用相关系数表示X和Y的相关程度。 总体相关系数定义为

ρ

XY

=

covX,Y。

总体相关系数的取值范围:

总体相关系数与样本相关系数之间的关系。 样本相关系数一般用r来表示,且定义:

XY

rXY=

covX,Y

EX-XY-Y∑x

t

yt

xy这里有:

xt=X-Xyt=Y-Y

4、 相关分析与回归分析的关系

这里特指在一元线性回归分析和简单相关分析中的关系。这里可决系数与相关系数有如下关系:

rXY=R

2

2

,即r=±

5、 计量回归分析的规范表达

第五节 预测和预测区间

关于预测

预测对两种样本数据的作用。对于时间序列数据的估计的目的是预测。对截面数据估计的目的是为了推测未知数据。预测是计量经济学的一项主要任务。 一、 预测的点估计 首先回顾四个方程式 总体回归模型:Y

t

=β1+β2Xt+μt

t

1

总体回归直线:E(Y)=β样本回归模型:Y

t

+β2Xt

ˆ+βˆX+e =β01ttˆ+βˆX =β01t

样本回归直线:Yˆ

t

对于样本外的符合假定条件的一点X而言,代入总体回归模型和总体回归直线,我们可以得到:

Y0=β1+β2X0+μ0和E(Y0)=β1+β2X0

然而,由于β和β我们并不知道,因此,无从获得Y和

1

2

E(Y0)。

但是,利用样本回归直线,我们可以得到Y的估计值Yˆ,

即Yˆ

ˆ+βˆX=β12

,求期望有:

1

2

ˆ+βˆXˆ=EβEY012=β1+X

2

()

ˆ+Eβ

()=E(β)(ˆˆ=β+βX=E(Y)E(β)

1

2

X

)

这说明Yˆ是 E(Y)的无偏估计量。

同时,E(Yˆ)=E(Y)=Y

ˆ不是Yˆ≠Y,这说明Y-μ0,故EY0000

()

无偏估计量。 由

Y0=β1+β2X0+μ0ˆ+βˆXˆ=βY0120

可得:

ˆ+βˆX⎤ˆ=E⎡(β+βX+μ)-βEY0-Y01200120

⎣⎦ˆ+β-βˆX+μ⎤=E⎡β1-β12200

⎣⎦ˆ+XEβ-βˆ+E(μ)=Eβ1-β10220=0

()()

()()

()()

这说明在多次观察中,(Y

ˆ-Y0

)平均值趋于零,从而以Yˆ作

为Y的估计中心是合理的。 二、预测的区间估计 1、E(Y)的置信区间

2、Y的置信区间

先求E(Y)的置信区间

因为E(Y)=β

1

+β2X0,所以E(Y0)服从正态分布。求其置信区

间的关键是求其与Yˆ的偏差的方差。

ˆ=E⎡E(Y)-Yˆ-EE(Y)-Yˆ⎤varE(Y0)-Y00000

⎣⎦

()()()

2

其中,E(E(Y)-Yˆ)=E(Y)-E(Yˆ)=0(Yˆ是E(Y)的无偏估计量)

所以,varE(Y0)-Yˆ0=EE(Y0)-Yˆ0()(),进一步可以写为

2

ˆ=EE(Y)-YˆvarE(Y0)-Y000ˆ=varY0

()()

2

ˆ-Yˆ=EEY00

(())

2

ˆ-EYˆ=EY00

(())

2

()

进而,

ˆ=EE(Y)-YˆvarE(Y0)-Y000

()()

2

ˆ+βˆX⎤=E⎡(β1+β2X0)-β120

⎣⎦

()

2

ˆ-β+βˆ-βX⎤=Eβˆ-β=E⎡β1122011

⎣⎦

()()

2

()

2

2ˆ-β+X0Eβ22

()

2

ˆ-β+2X0E⎡β1

⎣1

()(βˆ

2

-β2⎤

)

上式子中的第一项为:

ˆ-βEβ11

()

2

ˆ-Eβˆ=Eβ11

(())

2

ˆ==varβ1

()

σu

2

(∑X)

2

t2t

n∑x

上式子中的第二项为:

ˆ-βX0Eβ22

2

()

2

ˆ-Eβˆ=X0Eβ22

2

(())

2

ˆ==X0varβ2

2

()

X0σu

22

xt

2

2

ˆ-ββ上式子中的第三项为:2X0E⎡1

⎣1

()(

ˆ-β⎤=-2X0Xσuβ222⎦x

)

t

将上述三项相加得到

ˆ=σ2(1+varE(Y0)-Y0u

n

()

(X

-Xxt

2

)

2u

2

)

2

因为上式中,总体方差σ可以用S来代替。从而可以得到

ˆ的方差估计值为: E(Y0)-Y0

ˆ=VarYˆ=S(VarE(Y0)-Y00

2

()()

1n

+

(X

-X

2

t

)

2

∑x

)

所以,根据E(Y)-Yˆ的分布,给定显著性水平α,使用t统计量,则有即有

ˆ-tP Yα⎝

⎛ P -tα ⎝

2

(n-2)

ˆEY-Y⎫

⎪⎪⎭

n-22(

Y)

n-2=1-α(这说明,E(Y)的1-α置信区间为:

ˆ-tY⎢0α⎣

2

(n-2)

Yˆ+t0α

2

(n-2)

2、Y的置信区间 相似地,我们可以得到Y

ˆ的方差估计值为 -Y0

ˆ==S(1+VarY0-Y0

2

()

1n

+

(X

-X

2

t

)

2

∑x

)

从而Y的1-α置信区间为:

⎡ˆ

⎢Y0-tα⎣

2

(n-2)

Yˆ+t0α

2

(n-2)

10.案例:用回归模型预测木材剩余物

伊春林区位于黑龙江省东北部。全区有森林面积218.9732万公顷,木材蓄积量为2.324602亿m3。森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万m。按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,保护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。下面,利用一元线性回归模型预测林区每年的木材剩余物。显然引起木材剩余物变化的关键因素是年木材采伐量。

给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表2.1。散点图见图2.14。观测点近似服从线性关系。建立一元线性回归模型如下:

yt = β0 + β1 xt + ut

表2.1 年剩余物yt和年木材采伐量xt数据

林业局名 乌伊岭 东风 新青 红星 五营 上甘岭 友好 翠峦 乌马河 美溪

年木材剩余物y(万m3) 年木材采伐量x(万m3) tt

26.13

23.49 21.97 11.53 7.18 6.80 18.43 11.69 6.80 9.69

61.4 48.3 51.8 35.9 17.8 17.0 55.0 32.7 17.0 27.3

3

大丰 南岔 带岭 朗乡 桃山 双丰 合计

30

Y

25

7.99 12.15 6.80 17.20 9.50 5.52 202.87 21.5 35.5 17.0 50.0 30.0 13.8 532.00

20

15

10

X

510

20

30

40

50

60

70

图2.14 年剩余物yt和年木材采伐量xt散点图

图2.15 Eviews输出结果

Eviews估计结果见图2.15。建立Eviews数据文件的方法见附录1。在已建立Eviews数据文件的基础上,进行OLS估计的操作步骤如下:打开工作文件,从主菜单上点击Quick键,选Estimate Equation 功能。在出现的对话框中输入y c x。点击Ok键。立即会得到如图2.15所示的结果。

下面分析Eviews输出结果。先看图2.15的最上部分。被解释变量是yt。估计方法是最小二乘法。本次估计用了16对样本观测值。输出格式的中间部分给出5列。第1列给出截距项(C)和解释变量xt。第2列给出第1列相应项的回归参数估计值(βˆ0和βˆ1)。第3列给出相应回归参数估计值的样本标准差(s(βˆ0), s(βˆ1))。第4列给出相应t值。第5列给出t统计量取值大于用样本计算的t值(绝对值)的概率值。以t = 12.11266为例,相应概率0.0000表示统计量t取值(绝对值)大于12.1的概率是一个比万分之一还小的数。换句话说,

若给定检验水平为0.05,则临界值为t0.05 (14) = 2.15。t = 12.1>2.15落在了H0的拒绝域,所以结论是β1不为零。输出格式的最下部分给出了评价估计的回归函数的若干个统计量的值。依纵向顺序,这些统计量依次是可决系数R2、调整的可决系数R2(第3章介绍)、回归函数的标准差(s.e.,即均方误差的算术根σˆ)、残差平方和、对数极大似然函数值(第10章介绍)、DW统计量的值(第6章介绍)、被解释变量的平均数()、被解释变量的标准差(s(yt))、赤池(Akaike)信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(Schwatz)准则(是一个选择变量最优滞后期的统计量)、F统计量(第3章介绍)的值以及F统计量取值大于该值的概率。

根据EViews输出结果(图2.15),写出OLS估计式如下:

ˆt= -0.7629 + 0.4043 xt y

(2.64)

2

(-0.6) (12.1) R = 0.91, s. e. = 2.04

2

ˆt(16-2)。其中括号内数字是相应t统计量的值。s.e.是回归函数的标准误差,即σˆ=∑u

R2是可决系数。R 2 = 0.91说明上式的拟合情况较好。yt变差的91%由变量xt解释。检验回归系数显著性的原假设和备择假设是(给定α = 0.05)

H0:β1 = 0; H1:β1 ≠ 0

图2.16 残差图

因为t = 12.1 > t0.05 (14) = 2.15,所以检验结果是拒绝β1 = 0,即认为年木材剩余物和年木材采

伐量之间存在回归关系。上述模型的经济解释是,对于伊春林区每采伐1 m3木材,将平均产生0.4 m3的剩余物。

ˆt,图2.16给出相应的残差图。Actual表示yt的实际观测值,Fitted表示yt的拟合值y

ˆt。Residual表示残差u残差图中的两条虚线与中心线的距离表示残差的一个标准差,即s.e.。通过残差图可以看到,大部分残差值都落在了正、负一个标准差之内。


相关内容

  • 计量经济学复习重点
    1 计量经济学复习重点 第一章 1. 计量经济学的性质 计量经济学是以经济理论和经济数据的事实为依据运用数学和统计学的方法 通过建立数学模型来研究经济数量关系和规律的一门经济学科. 研究的主体出发点.归宿.核心经济现象及数量变化规 ...
  • 高中数学(文科)知识点有哪些啊 请帮我总结一下
    1.集合.简易逻辑 理解集合.子集.补集.交集.并集的概念: 了解空集和全集的意义: 了解属于.包含.相等关系的意义: 掌握有关的术语和符号,并会用它们正确表示一些简单的集合. 理解逻辑联结词"或"."且&qu ...
  • 系统辨识-最小二乘法
    最小二乘法参数辨识 201403027 摘 要:系统辨识在工程中的应用非常广泛, 系统辨识的方法有很多种, 最小 二乘法是一种应用极其广泛的系统辨识方法. 阐述了动态系统模型的建立及其最小二乘法在系统辨识中的应用, 并通过实例分析说明了最小 ...
  • 高级计量经济学教学计划
    教学计划 高级计量经济学II 2009 春季 本课程的目的是培养学生进行独立研究的能力.除了宏观经济学与微观经济学的知识,我们假定学生有比较坚实的微积分.线性代数.概率论.数理统计的基础.学生阅读英文教材以及英文文献的能力是必不可少的.编程 ...
  • 概率论发展史
    17世纪,正当研究必然性事件的数理关系获得较大发展的时候,一个研究偶然事件数量关系的数学分支开始出现,这就是概率论. 早在16世纪,赌博中的偶然现象就开始引起人们的注意.数学家卡丹诺(Cardano)首先觉察到,赌博输赢虽然是偶然的,但较大 ...
  • 使用卷积网络估计三维形状的正朝向
    中圈料孽艘求大誊使用卷积网络估计三维形状的正朝向作者姓名:刘子舜学科专业:计算数学导师姓名:文lJ禾lJ网IJ教授完成时间:二.一六年五月硕士学位论文 UniversityofScienceandTechnologyofChinaAdiss ...
  • 图像最大内切圆求解算法的研究
    2006年 工 程 图 学 学 报 2006第2期 JOURNAL OF ENGINEERING GRAPHICS No.2 图像最大内切圆求解算法的研究 李 伟, 周朝晖, 严承华 (海军工程大学机械系,湖北 武汉 430033) 摘 要 ...
  • 贪婪算法与压缩感知理论
    第37卷第12期2011年12月 自动化学报 ACTA AUTOMATICA SINICA Vol. 37, No. 12December, 2011 贪婪算法与压缩感知理论 方红1 杨海蓉2 摘要贪婪算法以其重建速度快.重建方法实现简便的 ...
  • 基于HoekBrown准则的岩体力学参数计算
    ISSN167l一2900 采矿技术第9卷第4期 2009年7月 CN43一1347/TD MiningTechnology,V01.9,No.4 July2009 基于Hoek-Brown准则的岩体力学参数计算 于加云1,漆泰岳2 (1. ...
  • 密立根油滴实验的几种数据处理方法的比较
    墨理工科研 密立根油滴实验的几种数据处理方法的比较 芦明霞李斌王天会王 (吉林大学珠海学院公共基础与教学研究中心 丹 广东・珠海519041) 中图分类号:0423.9 文献标识码:A 摘要比较了目前常用的几种密立根油滴实验数据处理的方法, ...