第二十二章 相关回归分析
提要 相关回归的意义,原理;小样本的直线相关和回归分析;相关系数和回归系数的意义及假设检验;应用直线相关和回归分析时的注意事项。
在医学上,许多现象之间都存在着相互联系,例如身高与体重,体温与脉搏,年龄与血压,钉螺与血吸虫感染等。而有些事物的关系是互为因果的,如上述钉螺是因,感染血吸虫是果;但有时回果不清,只是伴随关系。例如父母的兄弟,兄高,弟也可能高,但不能说兄是因、弟是果,这里不是因果关系,而可能与社会条件、家庭经济、营养、遗传等因素有关。
相关是解决客观事物或现象相互关系密切程度的问题,而回归则是用函数的形式表示出因果关系。有相关不一定因果关系;反之,有因果关系的,一定有相关。我们称“因”的变量叫,习惯上用Y表示。以横轴代表自变量X,纵轴代表依变量Y,可以将一群观察事物的两种关系在坐标图上以P(X,Y)的方法定位,作出一群点图,便可在体上看出两者的关系,例如图22-1。
图22-1(A)表示血压(依变量)随年龄(自变量)增长而增高,其图像性质与(B)一样称正相关(positive correlation);图(C)的依变量随自变量的增加而减少,称为负相关(negative correlation);若二者没有关系,则称无相关(如图D、E、F)。
图22-1 年龄与血压相关(A)和五种有代表性点图(B~F)
根据实际资料,用数学的方法求出一条曲线(或直线),使我们能够从一个自变数推算出相关的依变量的值,这条线就叫回归线。回归线有直线和曲线两种。本章仅介绍直线相关与回归分析。
例22.1 某产科医师发现产妇尿液中雌三醇含量与初生儿体重有相关现象,因此检查了31例待产妇24小时的尿雌三醇含量,并记录下各产儿初生体重,统计如表22-1。作者意欲通过测定尿中雌三醇含量以间接预测初生儿体重,以便对低出生体重儿采取预防性措施。
表22-1 待产妇尿雌三醇含量与初生儿体重统计
编号(1) |
尿雌三醇mg/24h(2) |
初生儿体重kg(3) |
编号(1) |
尿雌三醇mg/24h(2) |
初生儿体重kg(3) |
1 |
7 |
2.5 |
17 |
17 |
3.2 |
2 |
9 |
2.5 |
18 |
25 |
3.2 |
3 |
9 |
2.5 |
19 |
27 |
3.4 |
4 |
12 |
2.7 |
20 |
15 |
3.4 |
5 |
14 |
2.7 |
21 |
15 |
3.4 |
6 |
16 |
2.7 |
22 |
15 |
3.5 |
7 |
16 |
2.4 |
23 |
16 |
3.5 |
8 |
14 |
3.0 |
24 |
19 |
3.4 |
9 |
16 |
3.0 |
25 |
18 |
3.5 |
10 |
16 |
3.1 |
26 |
17 |
3.6 |
11 |
17 |
3.0 |
27 |
18 |
3.7 |
12 |
19 |
3.1 |
28 |
20 |
3.8 |
13 |
21 |
3.0 |
29 |
22 |
4.0 |
14 |
24 |
2.8 |
30 |
25 |
3.9 |
15 |
15 |
3.2 |
31 |
24 |
4.3 |
16 |
16 |
3.2 |
|
|
|
资料来源:Rosner B:Fundamentals of Biostatistics P.346,Duxbury
Press,1982
一、相关分析(correlation analysis)
先将上表数据按直角坐标作出图22-2。从该图的点子分布可以看出,尿中雌三醇浓度愈高,新生儿体重愈大;这群点子的分布基本上呈直线趋势。
图22-2 待产妇尿雌三醇含量与产儿出生体重相关图
(一)相关系数(correlation coefficient)
相关系数是表示两个变量(X,Y)之间线性关系密切程度的指标,用r表示,其值在-1至+1间。如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。计算相关系数的公式为:
为了获得公式22.2中各数据,先将表22-1资料进行计算如表22-2。
从表22-2的计算获得
ΣX=534 ΣX2=9876 ΣY=99.2 ΣY2=324.18 ΣXY=1750
N=31
按这些数据进一步以下演算求r。
(二)相关系数的假设检验
本例题31例,只是总体中一个样本,由此求得的相关系数,必然存在抽样误差。总体相关系数为零(ρ=0)时,从这总体中抽出31例,因为抽样误差,r也可能不等于0。氙以要判断该样本r是否有意义,需与总体相关系数,ρ=0比较,看两者的差别有无统计不学意义。
相关系数的假设检验,可用t检验,公式如下:
公式(22.2)
自由度v=n-2
H0:ρ=0
H1:ρ≠0
α=0.05
本例r=0.6097,n=31,代入公式(22.2)
表22-2 相关系数计算表
尿雌三醇X(mg/24h)(1) |
X2(2) |
初生儿体重Y(kg)(3) |
Y2(4) |
XY(5) |
7 |
49 |
2.5 |
6.25 |
17.5 |
9 |
81 |
2.5 |
6.25 |
22.5 |
9 |
81 |
2.5 |
6.25 |
22.5 |
12 |
144 |
2.7 |
7.29 |
32.4 |
14 |
196 |
2.7 |
7.29 |
37.8 |
16 |
256 |
2.7 |
7.29 |
43.2 |
16 |
256 |
2.4 |
5.76 |
38.4 |
14 |
196 |
3.0 |
9.00 |
42.0 |
16 |
256 |
3.0 |
9.00 |
48.0 |
16 |
256 |
3.1 |
9.61 |
49.6 |
17 |
289 |
3.0 |
9.00 |
51.0 |
19 |
361 |
3.1 |
9.61 |
58.9 |
21 |
441 |
3.0 |
9.00 |
63.0 |
24 |
576 |
2.8 |
7.84 |
67.2 |
15 |
225 |
3.2 |
10.24 |
48.0 |
16 |
256 |
3.2 |
10.24 |
51.2 |
17 |
289 |
3.2 |
10.24 |
54.4 |
25 |
625 |
3.2 |
10.24 |
80.0 |
27 |
729 |
3.4 |
11.56 |
91.8 |
15 |
225 |
3.4 |
11.56 |
51.0 |
15 |
225 |
3.4 |
11.56 |
51.0 |
15 |
225 |
3.5 |
12.25 |
52.5 |
16 |
256 |
3.5 |
12.25 |
56.0 |
19 |
361 |
3.4 |
11.56 |
64.6 |
18 |
324 |
3.5 |
12.25 |
63.0 |
17 |
289 |
3.6 |
12.96 |
61.2 |
18 |
324 |
3.7 |
13.69 |
66.6 |
20 |
400 |
3.8 |
14.44 |
76.0 |
22 |
484 |
4.0 |
16.02 |
88.0 |
25 |
625 |
3.9 |
15.21 |
97.5 |
24 |
576 |
4.3 |
18.49 |
103.2 |
534 |
9876 |
99.2 |
324.18 |
1750.0 |
V=31-2=29
查t值表,t0.01(29)=2.756,本例tr=4.1423>t0.01(29),P<0.01,按α=0.05水准拒绝H0,接受H1,可以认为临产妇24小时尿中雌三醇浓度与初生儿体重有正相关关系。
如果不用t检验,可以根据v查相关系数r界值表(附表22-1)。本例v=29,查表得知r0.01(29)值为0.456,而本例r=0.6097>r0.01(29),故P<0.01,与上述t检验的结果一致。
二、回归分析(regression analysis)
医学上,不少娈量间虽存在一定关系,但这种关系不象函数关系那样十分确定。例如正常人的血压随年龄而增高,但这只是总的趋势,有些高龄人的血压却不一定偏高;一群正常人按年龄和血压两个变量在坐标上的方位点,并非集中在一条上升直线上,而是围绕着一条有代表性的直线上升。
直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。
(一)直线回归方程式(linear regression equation)的计算
直线回归方程的通式为:
=a+bX 公式(22.3)
式中Y为自由变量X推算因变量Y的估计值,a为回归直线在Y轴上的截距,即X=0时的Y值;b为样本回归系数(regression coefficient),即回归直线的斜率(slope或称坡度),表示当X变动一个单位时,Y平均变动b个单位。如果已知a与b,用以代入公式(22.3),即可求得直线回归方程。求a和b的公式分别为:
公式(22.4)
公式(22.5)
对样本中两个变量分析,不但可作相关分析,还可进一步作直线回归分析。仍以表22-1为示范,该例经过直线相关分析,r=0.6097,两变量间有直线关系,从相关系数计算时,已求得:
Σ(X-x)(Y-Y)=41.2000
Σ(X-x)2=677.4194
而 Y=ΣY/n=99.2/31=3.2000
x=ΣY/n=534/31=17.2258
代入公式(22.4)
b=41.2000/677.4194=0.0608
代入公式(22.5)
a=3.2000-0.0608×17.2258=2.1527
代入公式(22.3)
=2.1527+0.0608X
(二)样本回归系数的假设检验
样本回归系数也有抽样误差问题,故需对b作假设检验,以评估b是否可能从回归系数为零(即β=0)的总体中随机抽得的。
检验步骤:
H0:β=0 即b是由β=0的总体中随机抽样的样本回归系数。
H1:β≠0
α=0.05
t检验:检验公式为
tb=|b|/sb 公式(22.6)
式中sb是回归系数的标准误,计算公式为
公式(22.7)
式中sy.x为各观察值Y距回归直线(Y)的标准差,是当X的影响被扣除后Y方面的变异指标。可用以下公式计算:
公式(22.8)
公式(22.9)
本例上述已算得
Σ(X-x)2=677.4194
Σ(Y-Y)2=6.7400
Σ(X-x)(Y-Y)=41.2000
分别代入公式(22.9),(22.8),(22.7)和(22.6)得
Σ(Y-Y)2=6.7400-41.20002/677.4194=4.2343
tb=0.0608/0.01468=4.1417
分析评价 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05检验水准,拒绝无效假设,可以认为待产妇24小时尿中雌三醇含量与初生儿体重之间存在直线回归关系。
(三)描绘回归直线
根据以上求得回归方程Y=2.1527+0.0608x,可以在自变量X的实测范围内(本例为7~27)任取X1和X2两值代入上式求得在图22-2中的P1(X1,Y1)和P2(X2,Y2)两坐标点,将两点连结为一直线,就属该方程的回归直线。作图要注意的是P1、P2两点最好距离远些,绘出的直线在坐标上误差就小些。
三、应用直线相关与回归分析时的注意事项
1.作相关与回归分析要有实际意义,不要把毫无关联的两个事物或两种现象作相关、回归分析。
2.两事物或现象间有相关,不一定有回果关系,也可能仅是伴随关系。但是,如果两事物或现象间存在因果关系,则两者必然是相关的。
3.相关与回归分析所说明的问题是不同的,但又是有联系的。相关表示相互关系,回归表示从属关系。可以证明,同一批资料所算得的r与b的检验统计量(tr,tb)是相同的,如本章的案例前后算得的tr=tb=4.14。由于相关系数的计算及假设检验比较方便,故可用相关系数的显著性检验取代回归系数的显著性检验。事实上在作回归分析之前,一般先作相关分析,而只有在确定了两变量间有直线关系的前提下,求回归方程及回归线才有意义。
4.相关与回归的应用,仅限于原实测数据的范围内,而不能随意外推。因为不知道在此范围之外,两变量间是否仍存在同样的直线关系。如果确有进行外推的充分根据和需要,亦应十分慎重。
5.在X与Y均呈正态变量时的加归分析中,由X 推算Y与由Y推算X的回归系数及回归方程是不同的,切勿混淆。
附表22-1 相关系数显著性界值表
v |
R0.05(v´) |
R0.01(v´) |
V´ |
R0.05(v´) |
R0.01(v´) |
1 |
0.997 |
1.000 |
24 |
0.388 |
0.496 |
2 |
0.950 |
0.990 |
25 |
0.381 |
0.487 |
3 |
0.872 |
0.959 |
26 |
0.375 |
0.478 |
4 |
0.811 |
0.917 |
27 |
0.367 |
0.470 |
5 |
0.754 |
0.874 |
28 |
0.361 |
0.463 |
6 |
0.707 |
0.834 |
29 |
0.355 |
0.456 |
7 |
0.666 |
0.798 |
30 |
0.349 |
0.449 |
8 |
0.632 |
0.765 |
35 |
0.325 |
0.418 |
9 |
0.602 |
0.735 |
40 |
0.304 |
0.393 |
10 |
0.576 |
0.708 |
45 |
0.288 |
0.372 |
11 |
0.553 |
0.684 |
50 |
0.273 |
0.354 |
12 |
0.532 |
0.661 |
60 |
0.250 |
0.325 |
13 |
0.514 |
0.641 |
70 |
0.232 |
0.302 |
14 |
0.497 |
0.623 |
80 |
0.217 |
0.283 |
15 |
0.482 |
0.606 |
90 |
0.205 |
0.267 |
16 |
0.468 |
0.590 |
100 |
0.195 |
0.254 |
17 |
0.456 |
0.575 |
125 |
0.174 |
0.228 |
18 |
0.444 |
0.561 |
150 |
0.159 |
0.208 |
19 |
0.433 |
0.549 |
200 |
0.138 |
0.181 |
20 |
0.423 |
0.537 |
300 |
0.113 |
0.148 |
21 |
0.413 |
0.526 |
400 |
9.098 |
0.128 |
22 |
0.404 |
0.515 |
500 |
0.088 |
0.115 |
23 |
0.396 |
0.505 |
1000 |
0.062 |
0.081 |