第二节 标准化测验的基本特征
一个测验是否标准化了,须在下面几个方面受到考验:
1.取样(sampling)心理测验是衡量某一心理品质的标尺,这个标尺产生于样本。人们的心理活动千差万别,所以取样时,必须照顾取样的代表性。根据样本结果来使测验标准化,这个样本便是测验的标准化样本。在选择测验时除了了解所取样本的代表性外,还要注意这一样本与受试的情况是否相应。一般来说,要考虑样本的年龄范围、性别、地区、民族、教育程度、职业等基本特征。如果是临床量表,还应有疾病诊断、病程及治疗等背景。受试者的情况在这些方面与样本相应,所测结果与样本才有可比性。在实际工作中,不是所有时候都有一个很适合的工具供使用,不得已也会使用不很相应的量表。这时,在解释中须加以说明,并持谨慎态度,否则很易造成错误。
2.常模(norm) 常模是一种可供比较的普通形式。通常有如下几种:
(1)均数:是常模的一种普通形式。某一受试所测成绩(粗分,或称原始分)与标准化样本的平均数相比较时,才能确定其成绩的高低。
(2)标准分:均数所说明的问题还是有限的。只看均数,不注意分散情况,所得受试者的信息非常有限。如用标准分作常模,便可提供更多的信息。标准分能说明受试者的测验成绩在标准化样本的成绩分布图上居何位置。标准分(Z)=受试者成绩(X)与样本均数(x)之差(即X-x)除以样本成绩标准差(SD)。简化成Z=(X-x)/SD。这样一来,不仅说明受试者的成绩与样本比较在其上或其下,而且还说明相差几个标准差。
许多量表采用这种常模或由此衍化出来的常模。例如:在Wechsler氏量表中,离差智高=100+15(X-x )/SD便是这一种。离差智商与标准分常模的不同之处在于:一是标准分均数为0。而离差智商均数为100。即Z=X在标准分时为0,在离差智商时为100;二是标准分的SD值随样本而定,而离差智商中是令标准差为15(Stanford Binet 为16)。
(3)T分:T分常模是标准分衍化出来的另一种常用常模。例如MMPI便采用此种常模。它与离差智商的不同之处,是所设的均数值及标准差不同。T分计算的公式:
T=50+10(X-x)/SD
(4)由标准分衍化而来的其他形式的常模;标准20和标准10即是属于这一类,都是改变均数及标准差值而得。其计算公式如下;
标准 20=10+3(X-x)/SD
标准10=5+1.5(X-x)/SD
在韦氏量表中,有粗分、量表分以及离差智商诸量数。其中量表分的计算方法即属此处的标准20计算法。
(5)百分位(percentile rank,PR):这是另一类常用常模,比标准分应用得早,且更通用。它的优点是不需要统计学的要领便可理解。习惯上将成绩差的排列在下,好的在上,计算出样本分数的各百分位范围。将受试者的成绩与常模相比较。如相当百分位50(P50),说明此受试者的成绩相当标准化样本的第50位。也即是说,样本中有50%的人数,其成绩在他之下(其中最好的至多和他一样),另外50%人数的成绩比他的好。如在P25,说明样本中25%的成绩在他之下(或至多和他一样),另有75%人数的成绩比他的好。以此类推。
(6)划界分(cut off score):在筛选测验中常用此常模。如教育上用100分制时,以60分为及格分,此即划界分。而入学考试时的划界分因考生成绩和录取人数而异。在临床神经心理测验中,将正常人与脑病患者的测验成绩比较,设立划界分,用这个分数划分有无脑损害。如果某测验对检查某种脑损害很敏感,就说明设立的划界分很有效。病人被划入假阴性的人数就很少甚至没有,正常人被划为假阳性的也很少或没有。如果不敏感,则假阳性或假阴性的机会均会增加。
(7)比率 (或商数):这一类常模也较常用。例如:在离差智商计算方法之前,便使用比率智商。其计算方法:IQ=MA/CA×100,是将MA(心理年龄)与CA(实际年龄)相等的设作100,以使IQ成整数。H.R.B.中的损伤指数也是比率常模。损伤指数=划入有损的测验数/受测的测验数(图12-1)。
图12-1 不同测验分与Z分和正态分布的关系
以上是通用常模形式,此外还有各种性质的常模。如年龄常模(按年龄分组建立的)、性别、区域和各种疾病诊断的常模。从可比性看,常模越特异越有效。从适应性讲,则以通常模使用方便。例如:以智力测验为例,全国常模运用的范围广,而区域常模应用的地区则有限。但后者比前者更精确。有的常模虽系区域性,但因该区域有代表性,也可用于相似地区。
3.信度(reliability) 心理测验的信度是指同一受试者在不同时间用同一测验(或用另一套相等的测验)重复测验,所得结果的一致性程度。信度用系数(coefficient)来表示。一般说,系数越大,说明一致性高,测得的分数可靠;反之则相反。信度的高低与测验性质有关。通常,能力测验的信度(要求0.80以上)高,人格测验的信度(要求0.70以上)低。凡标准化的测验手册,都需要说明本测验用各种方法所测得的信度。考验信度通常有如下方法:
(1)重测信度:同一组受试在两次不同时间作同一套测验所得结果的相关性检验。
(2)正副本相关:有的测验同时编制了平行的正副本,将同一组受试的两套测验结果进行相关性检验。
(3)分半相关:将一套测验的各项目(要求按难度为序)按奇、偶数号分成两半,对所测结果进行相关性检验。
其它尚有因素信度、测量标准误等,此处从略。
4.效度(Validity) 所谓效度即有效性,指此测验测查到所要测查的没有?测查到何种程度?如一个智力测验,若测验结果所表明的确实是受试的智力,而且量准了智力水平,那么这一智力测验的效度好;反之则不好。效度检查,也同信度检查一样,有多种方法,并有各种名称,如内容效度、预测效度、因素效度、内部效度等。美国心理协会在《心理测验和诊断技术介绍》,简称《APA》(1954)及《教育和心理测验的标准与手册》(1966)中将它们分为三类。即校标(criterion)效度、内容(content)效度和结构(construct)效度三类,以后广泛沿用。
(1)校标效度:即将测验结果与某一标准行为进行相关检查。如智力测验与学习成绩,诊断测验与临床诊断进行相关检查等均属之。
(2)内容效度:指测验映所测量内容的程度。如算术成就测验应反映受试者运算能力的程度。测验与之相关的标准,是老师的评定,日常生活或工作中所表现的能力等。
(3)结构效度:反映编制此测验所依据理论的程度。如编制一个智力测验,必定依据有关智力的理论。该测验所反映此智力的程度,可用结构效度来检验。
5.方法的标准化 施测方法、记分方法、标准结果的换算法等都要按一定的规定进行,方符合标准测验的条件。