第四节 方差分析
方差分析(analysis of variance,简写为ANOV或ANOVA)可用于两个或两个以上样本均数的比较。应用时要求各样本是相互独立的随机样本;各样本来自正态分布总体且各总体方差相等。方差分析的基本思想是按实验设计和分析目的把全部观察值之间的总变异分为两部分或更多部分,然后再作分析。常用的设计有完全随机设计和随机区组设计的多个样本均数的比较。
一、完全随机设计的多个样本均数的比较
又称单因素方差分析。把总变异分解为组间(处理间)变异和组内变异(误差)两部分。目的是推断k个样本所分别代表的μ1,μ2,……μk是否相等,以便比较多个处理的差别有无统计学意义。其计算公式见表19-6。
表19-6 完全随机设计的多个样本均数比较的方差分析公式
变异来源 |
离均差平方和SS |
自由度v |
均方MS |
F |
总 |
ΣX2-C* |
N-1 |
|
|
组间(处理组间) |
|
k-1 |
SS组间/v组间 |
MS组间/MS组间 |
组内(误差) |
SS总-SS组间 |
N-k |
SS组内/v组内 |
|
*C=(ΣX)2/N=Σni,k为处理组数
表19-7 F值、P值与统计结论
α |
F值 |
P值 |
统计结论 |
0.05 |
<F0.05(v1.V2) |
>0.05 |
不拒绝H0,差别无统计学意义 |
0.05 |
≥F0.05(v1.V2) |
≤0.05 |
拒绝H0,接受H1,差别有统计学意义 |
0.01 |
≥F0.01(v1.V2) |
≤0.01 |
拒绝H0,接受H1,差别有高度统计学意义 |
方差分析计算的统计量为F,按表19-7所示关系作判断。
例19.9 某湖水不同季节氯化物含量测量值如表19-8,问不同季节氯化物含量有无差别?
表19-8 某湖水不同季节氯化物含量(mg/L)
Xij |
春 |
夏 |
秋 |
冬 |
22.6 |
19.1 |
18.9 |
19.0 |
22.8 |
22.8 |
13.6 |
16.9 |
21.0 |
24.5 |
17.2 |
17.6 |
16.9 |
18.0 |
15.1 |
14.8 |
20.0 |
15.2 |
16.6 |
13.1 |
21.9 |
18.4 |
14.2 |
16.9 |
21.5 |
20.1 |
16.7 |
16.2 |
21.2 |
21.2 |
19.6 |
14.8 |
ΣXij j |
167.9 |
159.3 |
131.9 |
129.3 |
588.4(ΣX) |
ni |
8 |
8 |
8 |
8 |
32(N) |
Xi |
20.99 |
19.91 |
16.49 |
16.16 |
|
ΣX2ijj |
3548.51 |
3231.95 |
2206.27 |
2114.11 |
11100.84(ΣX2) |
H0:湖水四个季节氯化物含量的总体均数相等,即μ1=μ2=μ3=μ4
H1:四个总体均数不等或不全相等
α=0.05
先作表19-8下半部分的基础计算。
C= (Σx)2/N=(588.4)2/32=10819.205
SS总=Σx2-C=11100.84-10819.205=281.635
V总=N-1=31
V组间=k-1=4-1=3
SS组内=SS总-SS组间=281.635-141.107=140.465
V组内=N-k=32-4=28
MS组间=SS组间/v组间=141.107/3=47.057
MS组内=SS组内/v组内=140.465/28=5.017
F=MS组间/MS组内=47.057/5.017=9.380
以v1(即组间自由度)=3,v2(即组内自由度)=28查附表19-2,F界值表,得F0.05(3,28)=2.95,F0.01(3,28)=4.57。本例算得的F=9.380>F0.01(3,28),P<0.01,按α=0.05检验水准拒绝H0,接受H1,可认为湖水不同季节的氯化物含量不等或不全相等。必要时可进一步和两两比较的q检验,以确定是否任两总体均数间不等。
资料分析时,常把上述计算结果列入方差分析表内,如表19-9。
表19-9 例19.9资料的方差分析表
变异来源 |
SS |
v |
MS |
F |
P |
组间 |
141.170 |
3 |
47.057 |
9.38 |
<0.01 |
组内 |
140.465 |
28 |
5.017 |
|
|
总 |
281.635 |
31 |
|
|
|
二、随机区组(配伍组)设计的多个样本均数比较
又称两因素方差分析。把总变异分解为处理间变异、区组间变异及误差三部分。除推断k个样本所代表的总体均数,μ1,μ2,……μk是否相等外,还要推断b个区组所代表的总体均数是否相等。也就是说,除比较多个处理的差别有无统计学意义外,还要比较区组间的差别有无统计学意义。该设计考虑了个体变异对处理的影响,故可提高检验效率。
表19-10随机区组设计的多个样本均数比较的方差分析公式
变异来源 |
离均差平方和SS |
自由度v |
均方MS |
F |
总 |
ΣX2-C |
N-1 |
|
|
处理间 |
|
k-1 |
SS处理/v处理 |
MS处理/MS误差 |
区组间 |
|
b-1 |
SS区组/v区组 |
MS区组MS误差 |
误差 |
SS总-SS处理-SS区组 |
V总-v处理-v区组 |
SS误差/v误差 |
|
C、k、N的意义同表19-6,b为区组数
例19.10为研究酵解作用对血糖浓度的影响,从8名健康人中抽血并制成血滤液。每个受试者的血滤液被分成4份,再随机地把4份血滤液分别放置0,45,90,135分钟,测定其血溏浓度(表19-11),试问放置不同时间的血糖浓度有无差别?
处理间:
H0:四个不同时间血糖浓度的总体均数相等,即μ1=μ2=μ3=μ4
表19-11 血滤放置不同时间的血糖浓度(mmol/L)
区组号 |
放置时间(分) |
受试者小计 ΣXij j |
0 |
45 |
90 |
135 |
1 |
5.27 |
5.27 |
4.94 |
4.61 |
20.09 |
2 |
5.27 |
5.22 |
4.88 |
4.66 |
20.03 |
3 |
5.88 |
5.83 |
5.38 |
5.00 |
22.09 |
4 |
5.44 |
5.38 |
5.27 |
5.00 |
21.09 |
5 |
5.66 |
5.44 |
5.38 |
4.88 |
21.36 |
6 |
6.22 |
6.22 |
5.61 |
5.22 |
23.27 |
7 |
5.83 |
5.72 |
5.38 |
4.88 |
21.81 |
8 |
5.27 |
5.11 |
5.00 |
4.44 |
19.82 |
ΣXij j |
44.84 |
44.19 |
41.84 |
38.69 |
169.56(ΣX) |
Ni |
8 |
8 |
8 |
8 |
32(N) |
Xi |
5.6050 |
5.5238 |
5.2300 |
4.8363 |
|
ΣX2ij j |
252.1996 |
245.0671 |
219.2962 |
187.5585 |
904.1214(ΣX2) |
H1:四个总体均数不等或不全相等
α=0.05
区组间:
H0:八个区组的总体均数相等,即μ1=μ2=……μ8
H1:八个区组的总体均数不等或不全相等
α=0.05
先作表19-11下半部分和右侧一栏的基本计算。
C=(ΣX)2/N=(169.56)2/32=898.45605
SS总=ΣX2-C=904.1214-898.45605=5.66535
V总=N-1=32-1=31
V处理=k-1=4-1=3
V区组=b-1=8-1=7
SS误差=SS总-SS处理-SS区组=5.66535-2.90438-2.49800=0.26297
V误差=(k-1)(b-1)=3×7=21
MS处理=SS处理/v处理=2.90438/3=0.9681
MS区组=SS区组/v区组=2.49800/7=0.3569
MS误差=SS误差/v误差=0.26297/21=0.0125
F处理=MS处理/MS误差=0.9681/0.0125=77.448
F区组=MS区组/MS误差=0.3569/0.0125=28.552
推断处理间的差别,按v1=3,v2=21查F界值表,得F0.005(3,21)=3.07,F0.01(3,21)=4.87,P<0.01;推断区组间的差别,按v1=7,v2=21查F界值表,得F0.05(7,21)=2.49,F0.01(7,21)=3.64,P<0.01。按α=0.05检验水准皆拒绝H0,接受H1,可认为放置时间长短会影响血糖浓度且不同受试者的血糖浓度亦有差别。但尚不能认为任两个不同放置时间的血糖浓度总体均数皆有差别,必要时可进一步作两两比较的q检验。
表19-12 例19.10资料的方差分析表
变异来源 |
SS |
v |
MS |
F |
P |
处理间 |
2.90438 |
3 |
0.9681 |
77.448 |
<0.01 |
区组间 |
2.49800 |
7 |
0.3569 |
28.552 |
<0.01 |
误差 |
0.26297 |
21 |
0.0125 |
|
|
总 |
5.66538 |
31 |
|
|
|
三、多个样本均数间的两两比较的q检验
经方差分析后,若按α=0.05检验水准不拒绝H0,通常就不再作进一步分析;若按α=0.05甚至α=0.01检验水准拒绝H0,且需了解任两个总体均数间是否都存在差别,可进一步作多个样本均数间的两两比较。两两比较的方法较多,在此仅介绍较常用的q检验(Newman-Keuls法)
公式(19.13)
(各组ni相等) 公式(19.14)
(各组ni不等) 公式(19.15)
式中,xA-xB为两两对比中,任两个对比组A、B的样本均数之差;sxA-xB为两样本均数差的标准误;ni为各处理组的样本含量;nA,nB分别为A、B两对比组的样本含量;MS误差为单因素方差分析中的组内均方(MS组内)或两因素方差分析中的误差均方(MS误差)。
计算的统计量为q,按表19-13所示关系作判断。
例19.11 对例19.9资料作两两比较
H0:任两个季节的湖水氯化物含量的总体均数相等,即μA=μB
H1:任两总体均数不等,即μA≠μB
表19-13 |q| 值、P值与统计结论
α |
|q| |
P值 |
统计结论 |
0.05 |
<q0.05(v.a) |
>0.05 |
不拒绝H0,差别无统计学意义 |
0.05 |
≥q0.05(v.a) |
≤0.05 |
拒绝H0。接受H1,差别有统计学意义 |
0.01 |
≥q0.01(v.a) |
≤0.01 |
拒绝H0,接受H1,差别有高度统计学意义 |
α= 0.05
1.将四个样本的均数由大到小排列编秩,注明处理组。
xi |
167.9 |
159.3 |
131.9 |
129.3 |
处理组 |
春 |
夏 |
秋 |
冬 |
秩次 |
1 |
2 |
3 |
4 |
2.计算 sxA-xB本例各处理组的样本含量n1相等,按式(19,14)计算两均数差的标准误。已知MS组内=5.017,n=8
3.列两两比较的q检验计算表(表19-14)
表19-14 两两比较的q检验计算表
A与B (1) |
xA-xB (2) |
组数,a (3) |
q值 (4)=(2)/0.7919 |
q0.05(v.a) (5) |
q0.01(v.a) (6) |
P值 (7) |
(1)与(4) |
38.6 |
4 |
48.744 |
3.85 |
4.80 |
<0.01 |
(1)与(3) |
36.0 |
3 |
45.460 |
3.49 |
4.45 |
<0.01 |
(1)与(2) |
8.6 |
2 |
10.860 |
2.89 |
3.89 |
<0.01 |
(2)与(4) |
30.0 |
3 |
37.884 |
3.49 |
4.45 |
<0.01 |
(2)与(3) |
27.4 |
2 |
34.600 |
2.89 |
3.89 |
<0.01 |
(2)与(4) |
2.6 |
2 |
3.283 |
2.89 |
3.89 |
<0.05 |
表中第(1)栏为各对比组,如第一行1与4,指A为第1组,B为第4组。第(2)栏为两对比组均数之差,如第一行为X1与X4之差,余类推。第(3)栏为四个样本均数按大小排列时,A、B两对比组范围内所包含的组数a,如第一“1与4”范围内包含4个组,故a=4。第(4)栏是按式(19.13)计算的统计量q值,式中的分母0.7919是按式(19.14)计算出来的SXA-XB。第(5)、(6)栏是根据误差自由度v与组数a查附表19-3q界值表所得的q界值,本例v误差=28,因q界值表中自由度一栏无28,可用近似值30或用内插法得出q界值,本例用近似值30查表,当a=4时,q0.05(30,4)=3.85,q0.01(30,4)=4.80 ,余类推。第(7)栏是按表19-13判定的。
4.结论由表19-14可见,除秋季与冬季为P<0.05外,其它任两对比组皆为P<0.01,按α=0.05检验水准均拒绝H0,接受H1,可认为不同季节的湖水氯化物含量皆不同,春季氯化物含量最高,冬季含量最低。