根据血清中微量元素含量用多变量统计分类技术进行肝癌的辅助诊断
数理医药学杂志 2000年第1期第13卷 临床科研分析
作者:任玉林 张晓滨 任玉秋 王孟才 徐刚
单位:任玉林(吉林大学化学系 长春130023); 张晓滨(吉林大学化学系 长春130023); 任玉秋(吉林大学化学系 长春130023 白城卫校); 王孟才(吉林大学化学系 长春130023 白求恩医科大学预防医学院); 徐刚(吉林大学化学系 长春130023 白求恩医科大学预防医学院)
关键词:肝癌辅助诊断;血清;元素;多变量统计分类技术
摘 要:根据血清中微量元素的含量,应用逐步判别分析、主成分分析和逐步聚类分析等多变量统计分类技术,进行肝癌辅助诊断方法的研究。结果显示,用统计方法筛选出的几种元素在区分是否肝癌上起着显著的作用。
中图分类号:R 457.2
文章编号:1004-4337(2000)01-0036-03▲
近年来,微量元素与肝癌的关系倍加受到人们重视。地球物理化学、流行病学、地球环境生态、营养生化和临床横断面调查及动物实验、细胞电镜检测的结果都显示和证实了微量元素与肿癌的发生发展和防治均有密切关系,因此很有可能通过研究癌症患者体内微量元素的含量,从中寻求有效的癌症辅助诊断的方法。
1 实验部分
1.1 仪器和试剂
电感耦合等离子体发射光谱仪为JARRELL—ASH800系列Mark-Ⅱ型。工作条件:入射功率1.15千瓦,反射功率<5瓦。矩管为三同心石英管,冷却气流量17升/分氩气,载气流量0.5升/分,辅助气流量1升/分,样品提升量3毫升/升。观测高度为工作线圈上方18mm。积分时间35秒。仪器的定量测量下限:元素铝、钙、镁、硼、磷和钛为0.75μg/ml;而钡、铅、锌为0.15μg/ml;铜、铬、铟、锰、钼、镍、钒、锆和钇为0.075μg/ml;铍、镉、钴、镧、锶为0.015μg/ml。质量控制:用标准样品监督仪器工作状态,保证患者与正常人组尽可能在相同仪器状态下测定。
硝酸、高氯酸为优级纯,Al、SrO、V2O5、Cd为高纯试剂;CaCO3、MgO、Fe2O3、CuO等为光谱纯。
1.2 样品
病例组由18位肝癌患者组成,样品编号1~18。对照组为35位正常人组成,无职业污染,无金属粉尘接触史,半年内无输血史,样品编号19~53。
早晨5点至8点采集空腹静脉血,注入离心管,离心30分钟,用移液管定量取血清≥1.000ml,移入聚四氟乙烯坩埚,加入0.5ml高氯酸、5.0ml硝酸。在铝电热板上加热至120℃,并蒸发至酸残余量约1ml,冷却后移入10ml比色管,用去离子水定容至5.00ml。
1.3 数据处理
主成分分析、逐步聚类分析和逐步判别分析原理详见文献[1~2]。用本实验室编的程序处理数据,进行多变量统计分类。
2 结果与讨论
2.1 数据的基本统计
原始数据是关于容量为53的样本所测得的8个变量(元素含量)的值。对全部数据以及分别按患者组和正常人组计算了均值、方差和标准差等基本统计量如表1所示。表1有些变量在两组中的均值相对差异较大,在统计分类中可能起较大作用,但有些变量则相反。一些非本质(不起区分作用)的变量的引用,反而有可能损害统计分类的效果。因此,有必要采用一种统计方法,对变量进行筛选。
表1 基本统计量
总样本(n=53) |
正常人组(n=35) |
癌症患者组(n=18) |
变量 |
均值 |
方差 |
标准差 |
均值 |
方差 |
标准差 |
均值 |
方差 |
标准差 |
Fe |
2.392 |
2.036 |
1.427 |
1.747 |
0.274 |
0.523 |
3.648 |
3.151 |
1.775 |
Ca |
89.532 |
105.766 |
10.284 |
94.098 |
50.908 |
7.135 |
80.654 |
95.335 |
9.764 |
Mg |
24.015 |
9.988 |
3.160 |
24.567 |
7.722 |
2.779 |
22.941 |
13.260 |
3.641 |
Cu |
1.085 |
0.163 |
0.403 |
0.928 |
0.058 |
0.240 |
1.389 |
0.234 |
0.484 |
Cr |
0.360 |
0.536 |
0.732 |
0.118 |
0.030 |
0.172 |
0.832 |
1.222 |
1.105 |
P |
115.476 |
993.038 |
31.513 |
114.749 |
1163.865 |
34.115 |
116.891 |
706.577 |
26.582 |
Zn |
0.033 |
0.000 |
0.013 |
0.033 |
0.000 |
0.015 |
0.034 |
0.000 |
0.010 |
Sr |
0.880 |
0.891 |
0.944 |
0.743 |
0.058 |
0.242 |
1.148 |
2.494 |
1.579 |
2.2 逐步判别分析
此法能在筛选变量的基础上建立线性判别模型。筛选是通过F检验逐步进行的,每一步选取满足指定水平最显著的变量并剔除因新变量的引入而变得不显著的原引入的变量,直到既不能引入也不能剔除为止。
经反复尝试,将引入和剔除的F水平值均取3(大约相当于90%以上的置信概率)为宜,计算所得判别函数有关参数见表2。经过5步筛选,最后选定的变量为:
X(1):Fe;X(2):Ca;X(3):Mg;X(4):Cu;X(5):Cr
相应的两个判别函数为:
y1=-83.08+1.46X1+1.72X2-0.54X3+17.15X4+12.49X5
y2=-99.21-4.72X1+2.39X2-1.13X3+8.90X4+7.92X5 (1)
表2 判别函数的有关参数
变量 |
偏F |
Y1 |
Y2 |
X(1) |
112.9542 |
1.4610 |
-4.7171 |
X(2) |
21.9435 |
1.7232 |
2.3939 |
X(4) |
13.2602 |
17.1538 |
8.9036 |
X(5) |
10.2482 |
12.4922 |
7.9157 |
X(3) |
2.6088 |
-0.5388 |
-1.1320 |
常数 |
|
-83.0815 |
-99.2052 |
使用时,将待查对象的有关数据(筛选后的5个元素的含量)代入上面两个判别函数式,求得两个得分y1和y2。当y1>y2时,为肝癌患者;当y1<y2时,为正常人。原样本中53人计算的得分和判别结果见表3所示,与实际完全相符。
表3 逐步判别分析结果
NO. |
得分 |
判
别 |
NO. |
得分 |
判
别 |
Y1 |
Y2 |
Y1 |
Y2 |
1 |
68.8837 |
43.3504 |
1 |
28 |
74.5486 |
86.0456 |
2 |
2 |
73.6517 |
60.1608 |
1 |
29 |
72.3974 |
83.8693 |
2 |
3 |
66.8914 |
55.9858 |
1 |
30 |
85.4891 |
98.4310 |
2 |
4 |
78.7726 |
72.3118 |
1 |
31 |
83.4448 |
100.4449 |
2 |
5 |
91.6193 |
72.3626 |
1 |
32 |
70.4590 |
84.9090 |
2 |
6 |
108.2913 |
84.4585 |
1 |
33 |
76.6263 |
94.0271 |
2 |
7 |
85.9482 |
79.0082 |
1 |
34 |
82.3907 |
103.2785 |
2 |
8 |
85.8354 |
65.8074 |
1 |
35 |
92.3135 |
101.3320 |
2 |
9 |
100.1008 |
87.3541 |
1 |
36 |
94.1001 |
107.7927 |
2 |
10 |
83.2168 |
71.1919 |
1 |
37 |
54.8402 |
64.9553 |
2 |
11 |
78.9321 |
63.6572 |
1 |
38 |
94.2035 |
103.1154 |
2 |
12 |
102.7804 |
85.5983 |
1 |
39 |
100.8559 |
115.6082 |
2 |
13 |
58.1554 |
55.3486 |
1 |
40 |
96.1741 |
110.0508 |
2 |
14 |
77.4768 |
76.1550 |
1 |
41 |
102.8593 |
114.6588 |
2 |
15 |
100.7819 |
89.6910 |
1 |
42 |
108.1712 |
123.5058 |
2 |
16 |
92.8203 |
85.7805 |
1 |
43 |
86.2529 |
95.4860 |
2 |
17 |
70.6541 |
52.7200 |
1 |
44 |
75.6980 |
83.0228 |
2 |
18 |
70.6541 |
52.7200 |
1 |
45 |
98.1586 |
108.1742 |
2 |
19 |
89.1218 |
104.3098 |
2 |
46 |
72.7145 |
84.7963 |
2 |
20 |
70.3904 |
85.2138 |
2 |
47 |
96.4096 |
106.1958 |
2 |
21 |
105.3362 |
130.1548 |
2 |
48 |
93.5459 |
111.1905 |
2 |
22 |
81.1839 |
97.1434 |
2 |
49 |
70.1208 |
75.8849 |
2 |
23 |
97.8440 |
115.3305 |
2 |
50 |
74.5062 |
89.9254 |
2 |
24 |
88.3304 |
103.0209 |
2 |
51 |
97.3681 |
110.3600 |
2 |
25 |
75.4324 |
90.6908 |
2 |
52 |
74.4745 |
78.8844 |
2 |
26 |
85.2009 |
97.1509 |
2 |
53 |
87.7504 |
103.6917 |
2 |
27 |
93.2955 |
109.5303 |
2 |
为证明所筛选的5个变量的正确性,下面分别用主成分分析和逐步聚类分析,在原来的8个变量和新筛选的5个变量两种情况下进行分类,以便比较。
2.3 主成分分析
主成分分析是一种简化数据结构、突出主要矛盾的多变量统计分类方法,它能将原来较多的变量转化为少数几个主要成分并用以突出地反映事物的规律性。
对数据分别用筛选后的5个变量和原来的8个变量进行主成分分析。将计算得到的样本在第一主成分上的得分为横座标,样本在第二个主成分上的得分为纵座标,见图1中A和B所示。其中△号为肝癌患者,×号为正常人。
(A) 5个变量
(B) 8个变量
图1 样本在前两个主成分上得分分布图
对比A、B两图不难看出,用筛选后的5个变量进行主成分分析,结果较好。
2.4 逐步聚类分析
逐步聚类分析是依据各分类对象在多维空间(维数由变量数决定)的位置和各类的中心(即重心,亦称凝聚点)间的距离进行分类的一种迭代方法。每步迭代都对各类的中心进行调整并将分类对象按与各中心的距离之远近进行归类,直到不变为止。
将数据分别按5个变量和8个变量使用逐步聚类法计算得到的结果见表4。表下方的注释是最后确定的两个中心在多缩空间的座标。表中是各分类对象在多维空间的位置分别与两个中心的距离及分类结果。对于待查对象,比较它与第一中心和第二中心的距离的相对大小,来判定是否癌症。当距离1<距离2,判为癌症;当距离1>距离2,判为正常。从表4可以看出,不论是5个变量,还是8个变量,分类结果都是正确的。这又说明了用筛选后的5个变量进行分类是可行的。
表4 逐步聚类结果
5个变量* |
8个变量** |
5个变量 |
8个变量 |
NO. |
距离1 |
距离2 |
聚类 |
NO. |
距离1 |
距离2 |
聚类 |
NO. |
距离1 |
距离2 |
聚类 |
NO. |
距离1 |
距离2 |
聚类 |
1 |
13.9934 |
30.5858 |
1 |
1 |
14.4337 |
31.2325 |
1 |
28 |
4.9256 |
1.55041 |
2 |
28 |
5.3084 |
1.8462 |
2 |
2 |
8.5431 |
16.6405 |
1 |
2 |
9.1948 |
17.0544 |
1 |
29 |
5.4580 |
1.55131 |
2 |
29 |
5.9845 |
1.8054 |
2 |
3 |
9.3798 |
18.4150 |
1 |
3 |
11.2727 |
19.6542 |
1 |
30 |
6.9656 |
0.19890 |
2 |
30 |
7.2471 |
0.3127 |
2 |
4 |
12.0634 |
19.2468 |
1 |
4 |
12.6056 |
19.4294 |
1 |
31 |
6.9512 |
0.28030 |
2 |
31 |
14.4126 |
6.9124 |
2 |
5 |
12.0948 |
24.6632 |
1 |
5 |
15.4318 |
27.5211 |
1 |
32 |
6.8643 |
0.74490 |
2 |
32 |
7.8066 |
1.3902 |
2 |
6 |
12.8738 |
22.0520 |
1 |
6 |
17.0324 |
26.5853 |
1 |
33 |
7.0645 |
0.98590 |
2 |
33 |
8.0981 |
1.8400 |
2 |
7 |
4.0617 |
5.3689 |
1 |
7 |
4.4422 |
5.4896 |
1 |
34 |
9.5739 |
0.52350 |
2 |
34 |
9.9560 |
0.6455 |
2 |
8 |
4.5919 |
12.1732 |
1 |
8 |
5.1534 |
12.4482 |
1 |
35 |
5.3610 |
0.56010 |
2 |
35 |
5.6144 |
0.8691 |
2 |
9 |
4.3821 |
8.5194 |
1 |
9 |
4.9187 |
8.7400 |
1 |
36 |
5.2346 |
0.75280 |
2 |
36 |
5.7288 |
1.0983 |
2 |
10 |
3.4280 |
6.9061 |
1 |
10 |
5.3418 |
8.3142 |
1 |
37 |
7.3499 |
4.23484 |
2 |
37 |
8.4535 |
4.9697 |
2 |
11 |
2.8523 |
6.9631 |
1 |
11 |
6.2477 |
10.1287 |
1 |
38 |
7.4286 |
1.37931 |
2 |
38 |
9.7896 |
3.9962 |
2 |
12 |
1.9668 |
9.3543 |
1 |
12 |
2.7643 |
10.0485 |
1 |
39 |
12.0171 |
2.81262 |
2 |
39 |
16.2770 |
7.3125 |
2 |
13 |
4.0254 |
7.5991 |
1 |
13 |
6.6988 |
9.6366 |
1 |
40 |
6.7343 |
0.59890 |