第二节 估计信度的方法
前面已经提出了信度的概念,但只是一个理论上的构想,实际测量过程中,无法对真分数和误差分数进行测量,在实际应用中,通常以同一样本得到的两组资料的相关,作为测量一致性的指标。估计信度有不同的方法,常用的估计的方法有再测信度、复本信度、等值稳定性系数、内部一致性系数、评分者信度等。
一、再测信度(Test-Retest Reliability)
再测信度,也叫重测信度,也叫稳定性系数。用同一个测验,对同一组被试前后施测两次,对两次测验分数求相关,其相关系数就叫再测信度。其计算公式(皮尔逊积差相关公式的变式)为:
∑X
rxx=
1
X2
-X1X2 (公式5-6) S1S2
式中X1、X2为同一被试的两次测验分数,X1、X2为全体被试两次测验的平均数,S1、S2为两次测验的标准差(样组标准差,参见金瑜的书P183),N为被试人数。
再测法的模式是:施测 适当时距 再施测
例2:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。(为了便于理解和计算,本章估计信度的例子都是小样组,实际应用时应采用大样组。)
表5-1 某幸福感调查表的两次测试结果
被试
测验
1 2 3 4 5 6 7 8 9 10
X1 16 15 13 13 11 10 10 9 8 7 X2 16 16 14 12 11 9 11 8 6 7 解:用计算器算出
S1=2.82,S2=3.38,X1=11.20,X2=11.00,∑X1X2=1324 把以上数据代入公式5-6,可得
-11.20⨯11.00
rxx==0.97 2.82⨯3.38
此题可用计算机社会科学统计软件做,求皮尔逊积差相关。
相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下: * 当r>0时,表示两变量正相关,r
* 当0
1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
* 一般可按三级划分:|r|
在测验手册上报告的再测信度,一般要注明被试样本的性质、大小,以及间隔多长时间等,以便使使用者了解样本及时间因素对测验稳定性的影响。
计算再测信度必须注意几个问题:
(1)所测量的特性必须是稳定的。当然绝对的稳定是不可能的,但应该是比较稳定的。所欲测的如果是智力、人格、兴趣等心理特质,则可以采用再测法;如果是知识、情绪等心理特质就不能使用再测法,因为这些心理特质是不稳定的。
(2)遗忘和练习的效果基本上相互抵消。
在做第一次测验时,被试可能会获得某种技巧,但只要间隔时间适度,这种练习的效果会基本上被遗忘掉。
因此,再测信度要考虑时间间隔的问题。到底多长合适呢?一般来说,相隔时间越长,稳定系数越低。最适宜的时距随测验的目的、性质及被试的特点而异。对于年幼儿童,两次施测的时间间隔应比年纪较大的被试短些,这是因为在个体发展的早期变化较快。一般来说,无论对于那种被试,初测与再测的间隔最好不要超过六个月。
另外,还有一种情况,例如,我们可能在间隔许多年后对被试施测同一个智力测验,此时我们的目的主要是考察智力随年龄的发展变化,而不是用来估计测验的信度。
(3)再测法适用于速度测验而不适用于难度测验。
速度测验题目较多,时间较紧,被试无法记住测验内容,所以受第一次测验的影响小,记忆效果可以忽略不计。
(4)应注意提高被试者的积极性。由于再测法是把原测验原封不动地重测一次,所以被试者容易兴趣索然,采取不积极合作的态度,使第二次测验的质量下降。所以,提高被试者的积极性,使他们如同第一次那样认真负责地完成测验,这是再测法计算信度能够成功的一个重要条件。
由于测验的再测信度受时间和其它多种因素的影响,故任何一个测验就可有不止一个再测信度系数。所以在测验手册中报告此种信度时应说明时间间隔以及在此间隔中被试的经历,如有无受过何种教育训练、心理治疗以及有何学习经历等。
二、复本信度
复本信度(Alternate Form Reliability),也称等值性系数(Coefficient of Equivalence)。
用两个平行(等值)的测验对同一组被试施测,得到两组测验分数,求这两组测验分数的相关系数,这就是复本信度。因为这反应了两个测验的等值程度,因此又称等值性系数。计算方法与再测法是一样的。
复本信度的模式是:复本A 最短时距 复本B
例3:假设用A、B两型创造力复本测验对初中一年级10个学生施测。结果见表5-2。(此题可以让学生自己计算)
表5-2 某创造力复本测验测试结果
X1=15.8,X2=15.1,S1=3.22,S2=3.22,∑X1X2=2494 代入公式5-6,得
-15.8⨯15.1
rxx==0.94 3.22⨯3.59
复本信度应用时应注意以下几点:
(1)复本信度的关键在于两个量表必须等值,即必须具有相同的难度、区分度、长度、题型等。只有达到这一要求,根据两次测验分数求出的复本信度才有意义。施测过程中的条件当然应该一致。
(2)两次测验的时距应尽可能短促,以便避免知识的积累、练习效应等因素的影响。最短的时距时在一次测验中先后用两个量表施测被试。
(3)由于量表的两个复份在许多方面近似,所以信度系数有稍稍偏高的倾向。
(4)被试易出现疲劳、失去积极性等反应,还会出现迁移(由于第二个测验只改变了题目的具体内容,已经掌握的解题原则很容易迁移到同类问题)。这些称为顺序效应,为了抵消顺序效应,可随机分配一半被试先做复本A再做复本B,另一半被试先做复本B再做复本A,以平衡顺序效应。
(5)复本法只能减少而不能完全排除练习和记忆的影响。
(6)对于许多测验来说,建立复本是相当困难的。一般来说,成就测验、特殊能力测验容易建立复本,因为较容易出题,但对于一些不易测量的特质,如人格、动机等,则不易找到等值的测题,复本的编制较困难。
同再测信度一样,在报告复本信度时,也应说明两次测验的时间间隔,以及在此间隔内被试的有关经历。
三、等值稳定性系数
等值稳定性系数是用两个平行的(等值的)测验,间隔适当时距施测于同一组被试得到两组测验分数,求这两组测验分数的相关,其相关系数就是等值稳定性系数。
等值稳定性系数的模式是:测验A 适当时距 测验B 计算方法同稳定性系数和等值性系数。 等值稳定性系数也是采用复本对被试施测,但等值性系数的测验要求两次测验的时间间隔尽可能短,而计算等值稳定性系数的两次测验却要求有一个适当的时距。时距的规定可参照稳定性系数。
优点:(1)因两次测试有适当的时间间隔,减少了复本法中的练习、疲劳效应。 (2)只要时间间隔适当,可用于计算稳定性不高的心理特质的测验的信度。如,对学生所学知识的测验,稳定性较差,遗忘或通过学习知识的增长。此时,可以尽量缩短时间间隔,减少这些不稳定的效应。
注意:
等值稳定性信度系数的值一般要比等值性系数和稳定性系数要低。因为,时间因素会引起我们所要测量的心理特质的变化以及测题的取样不同会影响两次测验分数的一致性。因此,等值稳定性系数是测验信度的最严格的考察,得到的是信度系数的下限。
四、内部一致性系数
前面所讲的估计信度的方法,都必须对被试测验两次,然后计算两次测验得分的相关系数。但是,有的测验没有复份,如人格测验,等值的测题很难编,编制复本很难。有的测验在施行一次以后,由于被试流动或不易召集,再测一次比较困难。因此,我们还要设法利用一次测验所获得的资料来计算信度系数。这样计算出来的信度系数反应的是测验内部的一致性,即测验项目的同质性,也就是测验内部所以题目间的一致性,叫做内部一致性系数或同质性系数或同质性信度。
计算内部一致性系数的方法有两种,下面逐一介绍。 (一)分半法(分半信度)
分半信度(Split-half reliability):分半信度就是将测验题目分成等值的两半,分半求出量表题目的总分,再计算两部分总分的相关系数。
分半法实际上是一种特殊的复本法。可以把对等的两半测验看成是在最短的时间内施测的两个平行的测验。
分半的方法很多,常见的方法是把一个量表按题目番号分为两半,一半是奇数题,另一半数偶数题。求出每个人的奇数题的总得分和偶数题的总得分,然后求出奇数题总得分和偶数题总得分的相关系数,最后对相关系数进行校正。为什么要进行校正呢?因为,分半以后,我们实际上计算的是测验的一般题目的信度,而非整个测验的信度,也就是说我们把一个完整的测验分成了两个等值的复本,所计算的只是其中一个复本的信度,这就会造成对整个测验的信度的低估,因为信度会随着测验长度的增加而提高。所以,要对求出的相关系数进行校正。
校正公式有:
(1)斯皮尔曼-布朗(Spearman-Brown)公式
rxx=
2rhh
(公式5-7) 1+rhh
式中,rhh是两半测验分数的相关系数,rxx为整个测验的信度估计值。 采用斯皮尔曼-布朗(Spearman-Brown)公式进行校正时,假定两半测验等值,亦即两半测验具有相同的平均数和标准差。当假定不能满足时,可以采用下面两个公式来估计信度。
⎛S2a+S2b⎫
⎪弗朗那根公式:r=2 (公式5-8) 2 1-⎪Sx⎝⎭式中,S2a、S2b 分别为两半测验分数的变异数,S2x为测验总分的变异数。r为信度值。
S2d
卢伦公式:r=1-2 (公式5-9)
Sx
式中,S2d为两半测验分数之差的变异数,S2x为测验总分的变异数。r为信度值。
例4:有一个由100题构成的量表施测于10个高三学生。测验一次后,应试者即毕业离校。现在怎样评介测验结果的信度?
解:因不能再次测验,只能求分半信度。 步骤:
X1=38.2,X2=37.4,S1=1.78,S2=1.62,Sx=3.26,Sd=0.98,
(1)斯皮尔曼-布朗(Spearman-Brown)公式(平均数和标准差差异显著性检验略)
∑XX
1
2
=14311
-38.2⨯37.4rhh==0.84(rhh可以通过计算机计算得到) 1.78⨯1.622⨯0.84
=0.91 rxx=
1+0.84⎛S2a+S2b⎫
⎪(2)弗朗那根公式:r=2 2 1-⎪Sx⎝⎭
⎛1.782+1.622⎫
⎪r=2 =0.912 1-⎪3.26⎝⎭
S2d
(3)卢伦公式:r=1-2
Sx0.982
=0.91 r=1-
3.262
采用分半信度应注意以下几个问题:
(1)若用分半法时,以按奇数题和偶数题分半为宜。若把整个测验分成前后两半,一方面前半部分题目和后半部分题目未必等值,另一方面可能会因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致而影响信度。
(1)在使用斯皮尔曼-布朗公式时要求全体被试在两半测验上的得分的变异数相等。当一个测验不宜分成对等的两半时分半信度不宜采用。
(2)当试卷中存在任选题时,不宜采用分半法。速度测验也不宜采用分半法。因为速度测验中试题的难度低,被试得分的多少主要是看答题的多少,分半
法易使得分相同,从而夸大分半法的信度估计。
(3)如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则会高估信度的值。
(4)将一个测验分成两半的方法很多(如,按题号的奇偶性分半、按题目的难度分半、按题目的内容分半等),因此,一个测验可以有多个分半信度值。提供分半信度值时,要说明分半的方法。
(二)其它计算内部一致性系数的方法
分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测验分半的方法是很多的,而且用不同的分半方法求出的分半信度都不一样,因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足,可以采用其它的方法。
1.库德-理查逊公式(K-R20公式) 库德(Kuder)、理查逊(Richardson)针对分半法的不足,提出以项目统计量为转移,利用项目统计量来计算信度。称为K-R20公式。
piqi⎛K⎫⎛∑ rKR20= 1-⎪2Sx⎝K-1⎭ ⎝
⎫
⎪ (公式5-10) ⎪⎭
式中k表示构成测验的题目数,pi为通过第i题的人数比例,qi为未通过第i题的人数比例,S2x为测验总分的变异数。
如果对测验的结果已经做了项目分析,已经知道了各个项目的难度,那么采用上述公式计算信度较为方便。
例5:有一种包含6个问题的测验,10个应试者的得分如表5-4(答对得1
2
K=6,∑pq=1.35,Sx=2.01,X=3.3
⎛6⎫⎛1.35⎫
将这些统计量代入公式,得 rKR20= ⎪ 1-⎪=0.39
⎝6-1⎭⎝2.01⎭
2. 库德-理查逊另一公式(K-R21公式)
当测验项目难度接近时可以采用库德-理查逊提出的简便公式,称为K-R21
公式。这一公式以各个应试者总分的平均数和方差为基础进行计算,无需提供各题的难度信息,计算起来较为方便。但必须保证各项目的难度接近,如果难度相差较大,就可能有低估的倾向。
K-R21公式为:
rKR21
KS2x-XK-X
(公式5-11) =
K-1S2x
()
式中k表示构成测验的题目数,X为测验总分的平均数,S2x为测验总分的变异数。
rKR21=
6⨯2.01-3.3(6-3.3)=0.31
6-1⨯2.01
如上例用K-R21公式计算为:
rKR21
3.克伦巴赫(Cronbach)的α系数
库德-理查逊公式只适用于两级记分的测验,而对多级记分的测验,则可以采用克伦巴赫(Cronbach)的α系数,克伦巴赫的α系数对两级记分的测验也是适用的。其计算公式为:
S2iK⎛ 1-α=2
K-1 Sx
⎝
⎫
⎪ (公式5-11) ⎪⎭
式中,K为测验的题目数,S2i为某一测验题目分数的变异数, S2x为测验总分的变异数。
例6:有一种包含6个论文式题目的测验,对5个应试者施行,得分见下表
解:(1)求每题各应试者得分的方差S2i、方差和∑S2i=18.65
(2)求测验总分各应试者得分的方差(即求40、62、41、54、52的方差),
S2T=68.96
(3)代入公式求信度系数 α=
6⎛18.65⎫ 1-⎪=1.2⨯0.72=0.875 6-1⎝68.96⎭
五、评分者信度(Scorer Reliability)
客观性测验不存在评分者之间不一致的情况,因此无需计算评分者信度,但在涉及主观性测验的题目中,评分者的不同会造成测验分数的差异,从而导致测验误差,此时,要计算评分者信度。如,心理测量中的投射测验、教育测验中的作文考题、职业选拔中的面试等。
评分者信度:随机抽取部分试卷,由两个或多个评分者独立按评分标准打分,然后求其间的相关,所得的相关系数即为评分者信度。
评分者信度的计算: 1.评分者为两个人时 若是连续变量的评分,且分布是正态则计算皮尔逊积差相关系数(可用计算机直接计算),若是等级评定或虽是等距或等比的数据但分布非正态,则计算斯皮尔曼等级相关。
斯皮尔曼等级相关公式:
rR=1-
6D2
NN2-1
(公式5-12)
式中D为各对偶等级之差,∑D2是各D平方之和,N为等级数目。 当有相同的等级出现时,计算斯皮尔曼等级相关的公式为:
rRC
x+∑y-∑D∑=
2⋅x⋅y
2
22
2
2
2
, (公式5-13)
N3-Nnn2-1
∑x=12-∑Cx, ∑Cx=∑12; N3-Nnn2-1
∑y=12-∑Cy, ∑Cy=∑12
2
()
()
式中,N为成对数据数目,n为相等等级数目。
例7:甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分数列入
222-1103-102
=0.5,∑x=-0.5=82 解:∑Cx=
1212222-1222-1
+=1,∑ ∑Cy=
1212
()
()()
2y
103-10
=-1=81.5
12
∑D2=26 rRc=
82+81.5-262⨯⨯81.5
=0.84
评分信度系数为0.84,甲乙两位老师的评分一致性尚可。
如果是两个评分者,一般认为经过训练的成对评分者之间的一致性达0.90以上,评分才是客观的。
2.评分者为多个时
采用肯德尔和谐系数(Kendall coefficient of concordance)来估计信度系数
W=
∑R
2
i
(∑Ri)-
2
123
K(N-N)12
(公式5-14)
式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被
评的等级之和。
出现相同等级时采用下面的公式:
W=
∑Ri
2
(∑Ri)-
N
2
123
K(N-N)-K∑T12
n3-n
,∑T=∑ (公式5-15)
12
式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被评的等级之和,n为相同等级数目。
例8:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评了等
2
解:K=6,N=
5,∑Ri=90,∑Ri=1954
902
1954-∑Ri
N W===0.93
1231K(N-N)⨯6253-51212
2
(∑Ri)
-
2
()
六位老师所评等级一致性程度很高。
例9:三位教师评阅四份试卷,所评等级列入下表5-8。他们所评的等级的解:N=4,K=3,∑Ri=211,∑Ri=27
2
n3-n23-233-2
∑T=∑12=12+12=2.58
W=
∑Ri
2
(∑Ri)-
N
2
123
K(N-N)-K∑T12
1
⨯32(43-4)-3⨯2.5812
评分一致性程度不高。 3.肯德尔和谐系数W的检验
(1)当3 ≤ N ≤ 7时,查心理与教育统计学的附表10,肯德尔W系数显著
=
272
211-
=
28.7528.75
==0.77
45-7.7437.26
性临界值表,用S=∑R2i(R)-i2
N值查表。
(2)当N > 7,将所得W值代入下式
χ2=K(N-1)W (公式5-16) df=N-1
查卡方分布表。
总结:以上介绍的各种估计信度的方法都是对测验的一致性进行估计,但由于误差来源不同,它们研究的侧面各不相同,说明的是信度的不同方面。其中,
再测信度:估计信度中跨时间的一致性
复本信度:估计测验跨形式的一致性
等值稳定性系数:估计测验跨时间和形式的一致性
内部一致性系数:估计测验跨项目或两个分布测验之间的一致性
评分者信度:估计测验跨评分者的一致性
各种方法具有不同的意义,每一种信度系数不能代替其他的信度系数,所以编制或使用测验时,应该尽可能收集各种信度证据。