典型相关分析及其应用实例 - 范文中心

典型相关分析及其应用实例

07/30

摘 要

典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.

本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.

【关键词】 典型相关分析,样本典型相关,性质,实际应用

ABSTRACT

The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis.

This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life.

【Key words】Canonical Correlation Analysis,Sample canonical correlation,

Character,Practical applications

目 录

前 言............................................................... 1 第1章 典型相关分析的数学描述...................................... 2 第2章 典型变量与典型相关系数...................................... 3

2.1 总体典型相关 ................................................ 3 2.2 样本典型相关 ................................................ 4

2.2.1 第一对典型相关变量的解法............................... 4 2.2.2 典型相关变量的一般解法................................. 8 2.2.3 从相关矩阵出发计算典型相关............................. 9

第3章 典型相关变量的性质......................................... 11 第4章 典型相关系数的显著性检验................................... 15 第5章 典型相关分析的计算步骤及应用实例........................... 18

5.1 典型相关分析的计算步骤 ..................................... 18 5.2 实例分析 ................................................... 19 结 语.............................................................. 26 致 谢.............................................................. 27 参考文献........................................................... 28 附 录.............................................................. 29

前 言

典型相关分析(Canonical Correlation Analysis ,CCA)作为多元统计学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.

典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.

典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.

典型相关分析是由Hotelling于1936年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等.

第1章 典型相关分析的数学描述

一般地,假设有一组变量X1,X2,,Xp与另一组变量Y1,Y2,,Yq,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.

当pq1时,就是我们常见的研究两个变量X与Y之间的简单相关关系,其相关系数是最常见的度量,定义为:

xy

Cov(X,Y)(X)(Y)

当p1,q1(或q1,p1)时,p维随机向量X(X1,X2Xp)',设

1112X

~N(,),p1,其中,11是第一组变量的协方差阵,12是Y

2122

第一组与第二组变量的协方差阵,22是第二组变量的协方差阵.则称

R

1

211112

为Y与X1,X2,,Xp的全相关系数,全相关系数用于度量一个随

22

机变量Y与另一组随机变量X1,X2,,Xp的相关系数.

当p,q1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即

U1X12X2pXp'X V1Y12Y2qYq'Y

其中,(1,2,,p)'和(1,2,,q)'为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量U与V之间的相关问题,希望寻求,

使U,V之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析.

第2章 典型变量与典型相关系数

2.1 总体典型相关

设有两组随机变量X(X1,X2,,Xp)',Y(Y1,Y2,,Yq)',分别为p维和q维随机向量,根据典型相关分析的思想,我们用X和Y的线性组合'X和'Y之间的相关性来研究两组随机变量X和Y之间的相关性.我们希望找到和,使得最大.由相关系数的定义 (‘X,'Y)

(X,Y)

易得出对任意常数e,f,c,d,均有

''

Cov('X,'Y)(X)(Y)

'

'

[e('X)f,c('Y)d]('X,'Y)

这说明使得相关系数最大的'X,'Y并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定

Var('X)1 , Va(r'Y)1

于是,我们就有了下面的定义:设有两组随机变量X(X1,X2,Xp)',

X

Y(Y1,Y2,Yq)',pq维随机向量 的均值向量为零,协方差阵0(不

Y

妨设pq).如果存在1(11,,p1)'和1(11,,q1)',使得在约束条件

Var('X)1 ,Var('Y)1下,

(1'X,1'Y)max('X,'Y)

则称1'X,1'Y是X,Y的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前k1对典型相关变量之后,第k对典型相关变量定义为:如果存在k(1k,,pk)'和k(1k,,qk)',使得 ⑴ k'X,k'Y和前面的k1对典型相关变量都不相关;

⑵ Var(k'X)1 ,Var(k'Y)1; ⑶ k'X和k'Y的相关系数最大,

则称k'X和k'Y是X,Y的第k对(组)典型相关变量,它们之间的相关系数称为第k个典型相关系数(k2,,p).

2.2 样本典型相关

以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量和协方差阵通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对进行估计. 2.2.1 第一对典型相关变量的解法

设总体Z(X1,,Xp,Y1,,Yq)',已知总体的n次观测数据为:

Z(t)

于是样本数据阵为

x11

x21xn1

X(t)

(t1,2,,n), 

Y(t)(pq)1

x1p

y11y21yn1

y12y22yn2

y1q

y2q



ynqn(pq)

x12

x22x2pxn2xnp

若假定Z~Npq(,),则由参考文献【2】中定理2.5.1知协方差阵的最大似然估计为

1n

(Z(t)Z)(Z(t)Z)'

nt1

1n

其中Z=Z(t),样本协方差矩阵S为:

nt1

S11

S

S21S12

S22

式中

1n

S11(XjX)(XjX)'

nj1

1n

(XjX)(YjY)' nj11n

(YjY)(XjX)' nj11n

(YjY)(YjY)' nj1

S12

S21

S22

1n1n

XXj, YYj

nj1nj1

令Uj'Xj,Vj'Yj,则样本的相关系数为

(U

r(Uj,Vj)

j1

n

j

U)(VjV)'



(U

j1

n

j

U)2

(V

j1

n

j

V)2

n1n1n''1'

又因为:UUjXjXjX

nj1nj1nj1

n1n1n''1'

VVjYjYjY

nj1nj1nj1

1n1n'''''

(UjU)(VjV)(XjX)(YjY)''S12 nj1nj11n1n'''''

(UjU)(UjU)(XjX)(XjX)''S11nj1nj11n1n'''''

(VjV)(VjV)(YjY)(YjY)''S22 nj1nj1

SUjVj

SUjUj

SVjVj

所以

r(Uj,Vj)

'S12S11S22

'

'

由于Uj,Vj乘以任意常数并不改变他们之间的相关系数,即不妨限定取标准化的Uj与Vj,即限定Uj及Vj的样本方差为1,故有:

SUjUjSVjVj1 (2.2.1) 则 r(Uj,Vj)'S12 (2.2.2) 于是我们要求的问题就是在(2.2.1)的约束条件下,求Rp,Rq,使得式(2.2.2)达到最大.这是条件极值的问题,由拉格朗日乘子法,此问题等价于求,,使

(,)'S12

2

('S111)

2

('S221) (2.2.3)

达到最大.式中,,为拉格朗日乘数因子.对上式分别关于,求偏导并令其为0,得方程组:



S12S110

 (2.2.4)

S21S220

分别用','左乘方程(2.2.4)得

''

S12S11

 ''

S21S22

又 ('S12)''S21 所以 S21(S12)

也就是说,正好等于线性组合U与V之间的相关系数,于是(2.2.4)式可写为:

SS110S11

 12 或 

SS21S22021

'

'

'

S12

(2.2.5) 0

S22

而式(2.2.5)有非零解的充要条件是:

S11S21

S12S22

0 (2.2.6)

该方程左端是的pq次多项式,因此有pq个根.求解的高次方程

(2.2.6),把求得的最大的代回方程组(2.2.5),再求得和,从而得出第一对典型相关变量.

具体计算时,因的高次方程(2.2.6)不易解,将其代入方程组(2.2.5)后还需求解pq阶方程组.为了计算上的方便,我们做如下变换:

1

用S12S22左乘方程组(2.2.5)的第二式,则有

S12S1

221

S220 S21-S12S22

即 S12S1

22S21=S12

又由(2.2.5)的第一式,得 S12S11 代入上式: S12S

122

S21S110

2

2

(S12SS21S11)0 (2.2.7)

1再用S11左乘式(2.2.7),得

1

22

(S

2

111

S12S

122 S21Ip)0 (2.2.8)

2

2

rp2,对也有p个解. 因此,对有p个解,设为r12r2

1

类似地,用S21S11左乘式(2.2.5)中的第一式,则有

1

S110 SSS12S21S111

2111

(2.2.9)

又由(2.2.5)中的第二式,得

S21S22 代入到(2.2.8)式,有 (SS

1

再以S22左乘上式,得

1

2111

S122S22)0

(SSSS2Iq)0 (2.2.10)

11

S12S22因此对有q个解,对也有q个解,因此2为S11S21的特征根,是

1

221211112

2

11S21S11S12的特征根,为相应特征向量.对应于的特征向量.同时2也是S22

2

而式(2.2.8)和(2.2.10)有非零解的充分必要条件为:

112SSSSIp011122221

(2.2.11)

11S22S21S11S122Iq0

11

对于(2.2.11)式的第一式,由于S110,S220,所以S110,S220,故

有:

22211

S11S12S22S22S21 S11S12S22S21S11

2222222

而S11有相同的特征根.如果记 S11S12S22S22S21与S11S12S22S22S21S11

22

S12S22 TS11

2

11

222

222

22111

则 S

S12S

SSS=TT

'

'

类似的对式(2.2.11)的第二式,可得 S

'

'

222

SS

2111

S

211

S12S

222

TT

而TT与TT有相同的非零特征根,从而推出(2.2.8)和(2.2.10)的非零特征根是相同的.设已求得TT的p个特征根依次为: 2p0

则T'T的q个特征根中,除了上面的p个外,其余的qp个都为零.故p个特征根排列是12p0,,0pp121,因此,只要取最大的1,代入方程组(2.2.5)即可求得相应的1,1.令而r(U,V)1'S121'1为第一典型U=1X与V1Y为第一对典型相关变量,

相关系数.可见求典型相关系数及典型相关变量的问题,就等价于求解TT的最大特征值及相应的特征向量. 2.2.2 典型相关变量的一般解法

从样本典型相关变量的解法中,我们知道求典型相关变量和典型相关系数的问题,就是求解TT的最大特征值及相应的特征向量.

'

'

'

2

1

22

''

不仅如此,求解第k对典型相关变量和典型相关系数,类似的也是求TT的第k大的特征值和相应的特征向量.下面引用参考文献【2】中定理10.1.1 来得出样本典型相关的一般求法.

设总体的n次观测数据为:

'

Z(t)

X(t)

(t1,2,,n) 

Y(t)(pq)1

不妨设pq,样本均值为0,协方差矩阵S为:

S11

S

S21

S12

0 S22

2

1

22

记TS

11

S12S

222,并设p阶方阵TT的特征值依次为2p0

'

(i0,i1,,p);而l1,l2,,lp为相应的单位正交特征向量.令 kS

'

'

k

11k

l,kSS21k

1

k122

则UkkX,VkY为X,Y第k对典型相关变量,k'为第k典型相关系数. 由上述分析不难看出,典型相关系数i越大说明相应的典型变量之间的关系越密切,因此一般在实际中忽略典型相关系数很小的那些典型变量,按i的大小只取前n个典型变量及典型相关系数进行分析. 2.2.3 从相关矩阵出发计算典型相关

以上我们从样本协方差阵S出发,导出了样本典型相关变量和样本典型相关系数.下面我们从样本相关阵R出发来求解样本典型相关变量和样本典型相关系数.

sij为样本协方差阵S的i行j设样本相关阵为R(rij),其中rijsij/siisjj,

列元素.把R相应剖分为

R11 R

R21

R12

R22

有时,X和Y的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再做典型相关.

记1E(X),2E(Y)

s11D1

0

sp1,p10

 D2

0spp



spq,pq0

则 S11D1R11D1,S22D2R22D2 S12D1R12D2,S21D2R21D1, 对X和Y的各分量作标准化变换,即令

1

X*D11(X1),Y*D2(Y2)

现在来求X*和Y*的典型相关变量i*'X*,i*'Y*,i1,2,,m. SX*X*D11S11D11R11

11

S22D2R22 SY*Y*D2

1

R12 SX*Y*D11S12D2

1

S21D11R21 SY*X*D2

于是

1111111

R11R12R22R21(D11S11D11)1D11S12D2(D2S22D2)D2S21D11

1

11112

122

11

DSSSS21D

11S12S22S21iri2i 因为 S11

11

S12S22S21D11(D1i)ri2(D1i) D1S11

11R12R22R21i*ri2i* 所以 R11

式中i*D1i,有i*'R11i*i'D1R11D1ii'S11i1

11R21R11R12i*ri2i* 同理: R22

式中i*D1i,有i*'R22i*i'D2R22D2ii'S22i1,由此可见i*,i*为

X*,Y*的第i对典型系数,其第i个典型相关系数为ri,在标准化变换下具有不变

性.

第3章 典型相关变量的性质

根据典型相关分析的统计思想及推导,我们归纳总结了典型相关变量的一些重要性质并对总体与样本分别给出证明.

性质1 同一组的典型变量互不相关 ⅰ总体典型相关

设X与Y的第i对典型变量为

Uii'X ,Vii'Y,i1,2,,m

则有 (Ui,Uj)0 (Vi,Vj)0 1ijm 证明详见参考文献【5】. ⅱ样本典型相关

设X与Y的第i对典型变量为

Uii'X ,Vii'Y,i1,2,,m

因为 SUiUi'iS11i1,SViVii'S22i1,i1,2,,m r(Ui,Uj)SUiUji'S11j0,1ijm r(Vi,Vj)SViVji'S22j0,1ijm

表明由X组成的第一组典型变量U1,U2,,Um互不相关,且均有相同的方差1;同样,由Y组成的第二组典型变量V1,V2,,Vm也互不相关,且也有相同的方差1.

性质2 不同组的典型变量之间的相关性 ⅰ总体典型相关

(Ui,Vi)i i1,2,,m

(Ui,Vj)0 1ijm 证明详见参考文献【5】. ⅱ样本典型相关

r(Ui,Vi) i'S12i ri, i1,2,,m

r(Ui,Vj)SUiVj'iS12j

SS12Sjrj'ij0,1ijm

1'2i11

1222

表明不同组的任意两个典型变量,当ij时,相关系数为ri;当ij时是彼此不相关的.

记U(U1,U2,,Um)',V(V1,V2,,Vm)',则上述性质可用矩阵表示为 SUUIm SUV

UIm

或 S

V

 Im

,SVVIm

其中diag(r1,r2,...,rm)

性质3 原始变量与典型变量之间的关系 求出典型变量后,进一步计算原始变量与典型变量之间的相关系数矩阵,也称为典型结构.下面我们分别对总体与样本进行讨论.

ⅰ总体典型相关的原始变量与典型变量的相关性详见参考文献【2】. ⅱ样本典型相关 记

A(1,2,,m)(ij)pm B(1,2,,m)(ij)qm

s11sp1S11S12 S=

S21S22sp1,1

spq,1



s1psppspq,psp1,p

s1,1psp,p1sp1,p1

spq,p1

s1,pq



sp,pq

sp1,pq



spq,pq

SXU

1n''

(XiX)(AXAX)'S11A ni11n''

(XiX)(BXBX)'S12B ni11n''

(YiY)(AXAX)'S21A ni11n''

(YiY)(BYBY)'S22B ni1

SXV

SYU

SYV

所以利用协方差进一步可以计算原始变量与典型变量之间的相关关系.若假定原始变量均为标准化变量,则通过以上计算所得到的原始变量与典型变量的协方差阵就是相关系数矩阵

.

r(Xi,Uj)

sikkj

k1p

r(Xi,Vj)si,pkk1

q

i1,2,,p , j

1,2,,m

r(Yi,Uj)sip,kk1p

r(Yi,Vj)sip,pkk1

q

i1,2,,q , j1,2,,m

性质4 设X和Y分别为p维和q维随机向量,令X*C'Xd,Y*G'Yh,其中C为pp阶非退化矩阵,h为qd为p维常数向量,G为qq阶非退化矩阵,维常数向量.则:

ⅰ对于总体典型相关有:

bi*G1bi⑴ X*和Y*的典型相关变量为(ai*)'X*和(bi*)'Y*,其中ai*C1ai,

(i1,2,,p);而ai和bi是X和Y的第i对典型相关变量的系数.

⑵ [(ai*)'X*,(bi*)'Y*][ai'X,bi'Y],即线性变换不改变相关性. 证明详见参考文献【2】.

ⅱ对于样本典型相关有:

bi*G1bi⑴ X*和Y*的典型相关变量为(ai*)'X*和(bi*)'Y*,其中ai*C1ai,

(i1,2,,p);而ai和bi是X和Y的第i对典型相关变量的系数.

⑵ r[(ai*)'X*,(bi*)'Y*]r[ai'X,bi'Y],即线性变换不改变相关性. 证明:⑴ 设X*和Y*的典型相关变量分别为

U(ai*)'X*,V(bi*)'Y*

由于 ai*C1ai,bi*G1bi

X*C'Xd,Y*G'Yh

所以 U(C1ai)'(C'Xd)ai'(C1)'(C'Xd)ai'Xai'(C1)'d

V(G1bi)'(G'Yh)bi'(G1)'(G'Yh)bi'Ybi'(G1)'h

即有ai和bi是X和Y的第i对典型相关变量的系数. ⑵ 由⑴的证明可知

U(ai*)'X*ai'Xai'(C1)'d V(bi*)'Ybi'Ybi'(G1)'h*

由于ai'(C1)'d与bi'(G1)'h都是常数,所以

r[(ai*)'X*,(bi*)'Y*]r[ai'Xai'(C1)'d,bi'Ybi'(G1)'h]r[ai'X,bi'Y] 即有线性变换不改变相关性.

性质5 简单相关、复相关和典型相关之间的关系

当pq1,X与Y 之间的(惟一)典型相关就是它们之间的简单相关;当

p1或q1时,X与Y之间的(惟一)典型相关就是它们的复相关.复相关是典型

相关的一个特例,而简单相关又是复相关的一个特例.从第一个典型相关的定义可以看出,第一个典型相关系数至少同X(或Y)的任一分量与Y(或X)的复相关系数一样大,即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大;同样,从复相关的定义也可以看出,当p1(或q1)时,X(或Y)与Y(或X)之间的复相关系数也不会小于X(或Y)与Y(或X)的任一分量之间的相关系数,即使所有这些相关系数都很小,复相关系数仍可能很大.

第4章 典型相关系数的显著性检验

设总体Z的两组变量X(X1,X2,,Xp)',Y(Y1,Y2,,Yq)',且

Z(X,Y)'~Npq(,),在做两组变量X,Y的典型相关分析之前,首先应该

检验两组变量是否相关,如果不相关,则讨论两组变量的典型相关就毫无意义. 1.考虑假设检验问题:

H0:12m0

H1:1,2,,m至少有一个不为零

其中mminp,q.若检验接受H0,则认为讨论两组变量之间的相关性没有意义;若检验拒绝H0,则认为第一对典型变量是显著的.上式实际上等价于假设检验问题

H0:Cov(X,Y)120, H1:120

用似然比方法可导出检验H0的似然比统计量



|S|

|S11||S22|

S11S12

其中pq阶样本离差阵S是的最大似然估计,且S=,S11,S22分别SS2122

是11,22的最大似然估计.

该似然比统计量的精确分布已由霍特林(1936),Girshik(1939)和Anderson(1958)给出,但表达方式很复杂,又不易找到该分布的临界值表,下面我们采用的近似分布.

利用矩阵行列式及其分块行列式的关系,可得出:

-11

|S11|·|pS11S12S-1|S||S22|·|S11S12S22S21|=|S22|·22S21|

所以

20101

11

|pS11S12S22S21|

012p0

(1

i1

p

2i

)

其中

21

2i

是TT

'

22

S12S22的特征值(TS11),按大小次序排列为

当n1时,在H0成立下Q0mln近似服从20,f分布,

1

这里fpq,mn1(pq1),因此在给定检验水平之下,若由样本算

2

222p

出的Q0临界值,则否定H0,也就是说第一对典型变量U1,V1具有相关性,其相关系数为1,即至少可以认为第一个典型相关系数1为显著的.将它除去之后,再检验其余p1个典型相关系数的显著性,这时用Bartlett提出的大样本2检验计算统计量:

1(1)(1)(1)(1)

i2

22

23

2p

p

2i

2



则统计量

1

Q1[n2(pq1)]ln1

2

2

2

近似地服从(p1)(q1)个自由度的分布,如果Q1,则认为2显著,即第二对典型变量U2,V2相关,以下逐个进行检验,直到某一个相关系数k检验为不显著时截止.这时我们就找出了反映两组变量相互关系的k1对典型变量.

(k)2.检验H0: k0(k2,,p)

当否定H0时,表明X,Y相关,进而可以得出至少第一个典型相关系数

10,相应的第一对典型相关变量U1,V1可能已经提取了两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时k0(k2,,p),故

(k)在否定H0后,有必要再检验H0(k2,,p),即第k个及以后的所有典型相

关系数均为0(k2,3,,p).

为了减少计算量,下面我们采用二分法来减少检验次数,取检验统计量为

p

1

Qk[nk(pq1)]ln(1i2)

2ik

它近似服从(pk1)(qk1)个自由度的2分布.在检验水平下,若

2

Qk[(pk1)(qk1)],则拒绝H0,即认为第k对典型相关系数在显著性

水平下是显著的,否则不显著.

从第2个典型相关系数到第p个典型相关系数,共p1个数,所以根据二

p1分法的原理,将它们分为一个区间2,p,然后先检验第个典型相关系数

2p1

即中位数,当p10时,即认为第个典型相关系数不相关,否定原假22p1p1设,接着检验2,;若当时,则检验02,p122

p.如此

划分区间依次检验下去,由数学分析上的区间套定理,一定存在第k个数

(k2,3,,p),使得k10,而k0.

以上的一系列检验实际上是一个序贯检验,检验直到对某个k值H0未被拒绝为止.事实上,检验的总显著性水平已不是了,且难以确定.还有,检验的结果易受样本容量大小的影响.因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为惟一的依据.

第5章 典型相关分析的计算步骤及应用实例

5.1 典型相关分析的计算步骤

设X(1),,X(n)为取自正态总体的样本(实际上,相当广泛的情况下也对),每个样品测量两组指标,分别记为X(X1,,Xp)',Y(Y1,,Yq)',原始资料矩阵为:

x11

x21xn1

x12

x1p

y11y21yn1

y12y22yn2

x22x2pxn2xnp

y1q

y2q



ynqn(pq)

第一步 计算相关矩阵R,并将R剖分为

R11

R R

21

R12

R22

'

其中R11,R22分别为第一组变量和第二组变量之间的相关系数矩阵,R12R21为

第一组与第二组变量之间的相关系数.

第二步 求典型相关系数及典型变量

首先求ARR12RR21的特征根,特征向量D1特征根,特征向量D2



(i)

1

11

122

2i

(i)

11R21R11R12的;BR22

2i

(i)

.

(i)

D(D111

),

(i)

D(D212

(i)

)

写出样本的典型变量为 U1 U2

(1)’

X,V1



(1)’

Y Y

(2)’

X,V2

(2)’

 Up

(p)’

X,Vp(p)Y



第三步 典型相关系数的显著性检验 首先,检验第一对典型变量的相关系数,即

H0:10,H1:10

^^

它的似然比统计量为

1(1)(1)(1)(1i2)

21

22

i1

^

^

^2p

p

^

则统计量

1

Q1[n2(pq1)]ln1

2

22

给定显著性水平,查表得,若Q1,则否定H0,认为第一对典型变量

相关,否则不相关.如果相关则依次逐个检验其余典型相关系数,直到某一个相

^

关系数k(k2,,p)检验为不显著时截止.

5.2 实例分析

例1:某康复俱乐部对20名中年人测量了三个生理指标:体重(x1)、腰围(x2)、脉搏(x3)和三个训练指标:引体向上(y1)、起坐次数(y2)、跳跃次数(y3).数据如附录1:

解:记X(x1,x2,x3)',Y(y1,y2,y3)',其中样本容量n20.

附录1中的数据用SPSS统计软件计算得六个变量之间的相关矩阵如下:

Correlations

X1

X1

X2

X3 -.366

Y1

Y2

Y3 Pearson

Correlation Sig.

(2-tailed) N Pearson

Correlation Sig.

(2-tailed) N Pearson

Correlatio

-.390 -.493(*)

.113 20

.089 20

.027 20 -.646(**

)

.002 20 .225

X2

-.353 -.552(*)

.127 20 1

.012 20 .151

X3

Y1

Y2

Y3

n Sig.

(2-tailed) N Pearson Correlation Sig.

(2-tailed) N Pearson

-.646(**

Correlation Sig.

(2-tailed) N Pearson Correlation Sig.

(2-tailed) N . 20 .151

.526 20

.340 20

1 .696(**)

.526 20

. 20

.001 20

.225 .696(**) 1 .340 20 .035

.001 20

. 20

.496(*) .669(**)

.884 20

.026 20

.001 20

** Correlation is significant at the 0.01 level (2-tailed).

* Correlation is significant at the 0.05 level (2-tailed).

即样本相关矩阵为:

1

R11=0.870

0.366



1 0.3531

1



1R22=0.696

0.4960.66910.390

'

R12R21=0.552

0.151

0.4930.6460.225

0.226

0.192 0.035

11

R12R22R2120 于是特征方程 R11

11

R12R22R21的特征值分别为0.6630、0.0402和0.0053,于是 用Matlab求得矩阵R11

10.797,20.201,30.073

下面我们进行典型相关系数的显著性检验,先检验第一对典型变量的相关系

数,欲检验:

H0:10 , H1:10 它的似然比统计量为

22

1(121)(12)(13)=(10.6330)(10.0402)(10.0053)0.3504

1

Q1[20(333)]ln115.5ln0.350416.255

2

2

02.05(9)16.919,Q10查2分布表得,因此在0.05的显著性水平下,.05(9),

所以拒绝原假设H0,也即认为第一对典型相关变量是显著相关的.

然后检验第二对典型变量的相关系数,即进一步检验:

H0:20 , H1:20

它的似然比统计量为

2

2(122)(13)

(10.0402)(10.0053)0.9547

122

Q2[201(333)1]ln216.08ln0.95470.7459.4880.05(4)

2

所以无法否定原假设H0,故接受H0:20,即认为第二对典型相关变量不是显著相关的.由以上检验可知只需求第一对典型变量即可. 于是求10.797的特征向量,而

*1

*1

1

1

RR,解得

122

*211

0.7750.350

, *1.054, 1.5791

0.0590.716

*1

因此,第一对样本典型变量为

****0.775x11.579x20.059x3 u1 ****0.350y11.054y20.716y3 v1

X与Y第一对典型变量的相关系数为10.797,可见两者的相关性较为密切,

即可认为生理指标与训练指标之间存在显著相关性.

例2:为了研究某企业不同部门人员工作时间的关系,随机选取25个企业进行入户调查,达到25个被访企业业务部门和技术部门经理每月工作时间和员工每月工作时间(单位为小时),具体数据如附表2

分析:设业务部门经理和员工每月工作时间为(X1,X2),技术部门经理和员工每月工作时间为(Y1,Y2),利用典型相关分析研究企业业务部门和技术部门人员工作时间的关系.

解:样本容量为n25,p2,q2分别为随机变量X与Y的维数.

⑴ 标准化随机变量X(X1,X2)'与Y(Y1,Y2)'.

*

根据样本均值xi与标准差Sii,依照公式xki

xkixi

Sii

,对数据标准化.

Rxy

. Ryy

RxxX

⑵ 求解Y的相关矩阵R,并将其分块RR

yx

将数据输入SPSS软件求得相关系数矩阵如下:

X1

Pearson Correlation Sig.

(2-tailed) N

X2

Pearson Correlation Sig.

(2-tailed) N

Y1

Pearson Correlation Sig.

Correlations

X1

X2

Y1

Y2

(2-tailed) N

Y2

Pearson Correlation Sig.

(2-tailed) N

** Correlation is significant at the 0.01 level (2-tailed).

所以样本相关矩阵

1

10.735

R 0.7110.6931

0.7050.7050.8341

分块后

RxxRR

yx2

Rxy2Ryy2 2

0.5443091111

RxyRyyRyx⑶ 求解M1Rxx

0.5388400.538840

的两个非零特征根,解得0.534949

2

0.6218,2两个非零特征根为120.0029.

⑷ 进行相关系数的显著性检验,取mr个显著性检验不为0的特征根.

X与Y第一对典型变量的相关系数为10.7885,X与Y第二对典型变量的相

关系数为20.0537.

先检验第一对典型变量的相关系数,假设H01:10(即第一对典型变量不相关),由典型相关系数的值可得

2

1(11)(122)0.3771

计算统计量

1

Q1[(n1)(pq1)]ln1

2

(242.5)ln0.377120.97

对于给定的显著性水平0.05

22(pm1)(qm1)0 Q120.97.05(4)9.488

所以否定零假设.

H01:10,即第一对典型变量是显著相关的.

然后检验第二对典型变量的相关系数,假设H02:20(即第二对典型变量不相关),由典型相关系数的值可得

2(122)0.9971 计算统计量

1

Q2[(n2)(pq1)]ln2

2

(242.5)ln0.99710.05945

对于给定的显著性水平0.05

22

Q20.05945(pm1)(qm1)0.05(1)3.841

所以无法否定假设.

H02:20,即第二对典型变量不是显著相关的.由以上检验可知,只需求

第一对典型变量即可.

2⑸ 求m1个显著性检验不为0的特征根1的特征向量l1,而

m1

1

1

1

RyyRyxl1,解得l1(0.55216,0.521548)',m1(0.504018,0.538134)'.

⑹ 求出r对典型相关变量ujl'jX,vjm'jY,j1,2,,m. 根据上面求得的特征向量l1和m1,得第一对典型相关变量为

u1l1'X0.55216X10.521548X2

 '

v1m1Y0.504018Y10.538134Y2

X与Y第一对典型变量的相关系数为10.7885,可见其相关性较为密切.

⑺ 由于u1l1'X0.55216X10.521548X2,与业务部门经理和员工每月工作

时间都成正比,而且系数差不多,所以u1可以解释为业务部门人员工作时间.同理v1可以解释为技术部门人员的工作时间.可见一个企业技术部门和业务部门人员月工作时间存在显著的相关性.

典型相关分析是一种采用类似主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系.在实际中,只须着重研究相关关系较大的那几对典型相关变量.本文首先根据典型相关分析的统计理论,初步探讨了总体典型相关变量和典型相关系数,然后重点讨论了样本典型相关分析,以及它们的一系列性质与显著性检验,并做了相应的实例分析.通过实例分析,我们进一步明确了典型相关分析是研究两组变量之间相关性的一种降维技术的统计分析方法.而复相关是典型相关的一个特例,简单相关是复相关的一个特例.第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减.各对典型相关变量所含的信息互不重复.并且经标准化的两组变量之间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的.

本文是在我的指导老师吴可法教授的精心指导和悉心关怀下完成的,在我的学习生涯和论文工作中无不倾注着老师的辛勤汗水和殷切关怀.吴老师宽厚的人格、敏捷的思维、严谨的治学态度、渊博的知识、积极向上的人生态度、平易近人的师长风范和两年来的谆谆教导,使我深受启迪,并永远铭记在心.从吴老师身上,我不仅学到了扎实的专业知识和技能,更学到了做人的道理,这些教诲必 将成为惠及一生的宝贵财富.在此谨向吴老师致以最衷心的感谢和美好的祝愿! 论文期间,我得到了许多老师和同学的帮助,本人在这里对他们致以衷心的感谢.

我还要感谢我的家人,是他们的理解、支持和鼓励,使我的学习能够顺利进行.

最后衷心感谢在百忙之中评审论文和参加答辩的各位专家、教授!

参考文献

【1】 何晓群.多元统计分析[M].北京:中国人民大学出版社,2004 【2】 高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005 【3】 方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1989 【4】 王方.城镇居民消费结构影响因素的典型相关分析[J] .统计与决策,2007,(03)

【5】 施锡铨,范正绮.数据分析方法[M].上海:上海财经大学出版社,1997 【6】 王学仁.多个变量集合的典型相关分析[J] .云南大学学报(自然科学版),1983,(Z1)

【7】 王学民.应用多元统计分析(第二版)[M].上海:上海财经大学出版社,2004.1 【8】 余锦华,杨维权.多元统计分析[M]. 广州:中山大学出版社,2005.2 【9】 于秀林,任雪松.多元统计分析与应用[M]. 北京:中国统计出版社,1999 【10】张尧庭,方开泰.多元统计分析[M].北京:科学出版社,1980 【11】Kendall M. Multivariate Analysis[M]. Charles Griffin,1975

【12】Richard A. Johnson, Dean W. Wichern. Applied Multivariate Statistical Analysis (5th Ed)[M].Beijing: China Statistics Press, 2003.5

【13】刘顺忠.管理统计学和SAS软件应用[M].武汉:武汉大学出版社,2006.1

第 28 页 共 33 页

附 录

例1数据

某康复俱乐部的生理指标和训练指标数据

编号 x1

1 191 2 189 3 193 4 162 5 189 6 182 7 211 8 167 9 176 10 154 11 169 12 166 13 154 14 247 15 193 16 202 17 176 18 157 19 156 20

138 x2 x3 36 50 37 52 38 58 35 62 35 46 36 56 38 56 34 60 31 74 33 56 34 50 33 52 34 64 46 50 36 46 37 62 37 54 32 52 33 54 33 68 第 29 页 共 33 页y1 y2 5 162 2 110 101 105 155 4 101 8 101 6 125 200 251 120 210 215 1 50 6 70 210 4 60 230 225 2 110 y3

60 60 101 37 58 42 38 40 40 250 38 115 105 50 31 120 25 80 73 43

12 12 13 15 17 17 13 14 12 11 15

例2数据

不同部门经理和员工月工作时间数据

业务部门 技术部门 经理月工作时间 员工月工作时间 经理月工作时间 员工月工作时间

企业编号

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 样本均值 样本方差

191 195 181 183 176 208 189 197 188 192 179 183 174 190 188 163 195 186 181 175 192 174 176 197 190 185.72 9.7618

155 149 148 153 144 157 150 159 152 150 158 147 150 159 151 137 155 153 145 140 154 143 139 167 163 151.12 7.3729 第 30 页 共 33 页

179 201 185 188 171 192 190 189 197 187 186 174 185 195 187 161 183 173 182 165 185 178 176 200 187 183.84 145 152 149 149 142 152 149 152 159 151 148 147 152 157 158 130 158 148 146 139 152 147 143 158 150 149.24 6.7099 10.0402


相关内容

  • ITIL_V3_服务设计
    ITIL 版本3 服务设计 免责声明: 一.本文档不对其中包含或引用的信息的准确性.可靠性或完整性提供任何明示或暗示的保证.对于任何因直接或间接采用本文档提供的信息造成的损失,均不承担责任.如因使用本文档出现法律责任,使用者应自行承担全部责 ...
  • 江苏省普通高中物理课程标准教学要求
    江苏省普通高中物理课程标准教学要求说明 为贯彻教育部制定的<普通高中物理课程标准>(以下简称<课标>).帮助广大高中物理教师把握教学的深广度,我们组织编写了<高中物理教学要求>(以下简称<要求> ...
  • 数与代数教材分析.重难点突破
    <整理与复习──数与代数>教材分析 本节内容是小学阶段"数与代数"知识的系统整理与复习.修订后的教材主要分四部分,分别是"数的认识""数的运算""式与方程&q ...
  • 举个实例,映射征信大未来
    二.征信产品概述 某一个征信产品的特征和发展轨迹,并不能代表征信产品的大宗境况.征信行业亟需解决的核心问题大致归纳了以下两点: 1. 征信产品形态单一,拓宽征信应用场景 1.1 行业现状: 征信行业的主要产品--产品报告,包括:个人征信报告 ...
  • 注册安全工程师继续教育大纲
    附件1 煤矿安全类别注册安全工程师继续教育大纲 (征求意见稿) 继续教育大纲由继续教育对象.继续教育目的.继续教育要求.继续教育主要内容和学时安排五部分组成. 1.继续教育对象 从事煤矿安全管理和安全技术工作的注册安全工程师. 2.继续教育 ...
  • 需求分析报告文档模板
    需求分析报告模板 目录 1. 引言 ...................................................................................................... ...
  • 数控技术参考文献
    1郑贞平,黄云林,黎胜容.VERICUT7.0中文版数控仿真技术与应用实例详解.北京:机械工业出版社,2011 2王明红.数控技术.北京:清华大学出版社,2009 3王道宏.数控技术.浙江工业大学出版社,2008 4(印)S.K.Sinha ...
  • [向心力]教学设计
    <向心力>教学设计 无锡市堰桥中学 高秋明 一.教材分析 "向心力"编排在曲线运动倒数第二节,这部份知识是本章的重点,学好这部份知识,可以为学习下一章万有引力应用部份的内容做好必要的准备. 圆周运动是生活中一 ...
  • 信息安全等级保护定级指南
    附件2 信息系统安全保护等级定级指南 (试用稿) 公 安 部 二〇〇五年十二月 目 次 1 2 范围 ..................................................................... ...
  • 380个机构实例,囊括机械设计人员所有基础设计!
    <常见机构设计及应用图例(第2版)>精选了约380个机构实例,囊括了平面连杆机构.凸轮机构.齿轮机构.轮系.间歇运动机构.螺旋机构.挠性传动机构.组合机构.特殊机构以及创新机构等全部的机构类型,采用运动简图.轴测简图.装配图.构 ...