第五节 资料处理及分析
在整理数据之前,首先对每一份原始资料进行查核,有无未填写或填写错误的表格,资料是否完整,将不合格的资料剔除,填写不清楚或不详的资料归属在“不详”项,然后对可用的原始资料进行清点与分组。如采用计算机分析,则按设计和程序及相应的编码,由调查进行编码,输入电子计算机储存,供分析用。
数据整理应有层次,由粗至细,层层深入,循序渐进。一般从整理描述性数据入手,可按种种不同的特性进行分组,例如人群可按性别、年龄、职业等分组;地区按城乡等;时间按年、月、周等。分组的粗细按具体的需要而定,并计算率与均数来描绘它的分布及变动趋势等,可初步发现各因素与疾病间的关系,存在何种差异。尔后对各单因素之间采用对比或相关的统计方法,分析各因素之间有无相关及相关的程度等。经这样处理后已能显示出数据的主要特征及各数据间的关系,对研究结果可有初步的结论。在整理过程中如发现影响疾病的因素是复杂的,且可能是多因素的综合作用,则需作多因素分析。
在整理资料时首先要拟整理表。例如整理吸烟习惯与肺癌死亡的关系时,需获得吸烟与不吸烟的总人数及他们中死于肺癌的总人数,这两数据必须按表27-3形式获得。
表27-3 吸烟习惯与肺癌死亡调查数据整理表
吸烟习惯 |
调查人数 |
肺癌死亡人数 |
死亡率(1/10万) |
吸烟 |
|
|
|
不吸烟 |
|
|
|
表27-4 某人群吸烟量与肺癌死亡调查数据整理表
吸烟情况(支/日) |
调查人数 |
因肺癌死亡人数 |
死亡率(1/10万) |
不吸 |
|
|
|
1~ |
|
|
|
11~ |
|
|
|
21~ |
|
|
|
如需分析吸烟量的多少与肺癌死亡关系时,可按表27-4的形式加以整理,即可获得吸烟剂量与肺癌死亡的关系。
在分析过程中如发现有两种因素交织在一起,当要确定以何者为主要因素时,可采用叉生法来排除非主要因素。例如1975年,某单位发生由冷饮引起的细菌性痢疾爆发,经初步调查可能为饮用豆浆或冰棍所致,但以何者为主呢?经叉生法分析,从表27-5可见,单吃豆浆比单吃冰棍的罹患率要高得多,从而获得饮用豆浆为这次细菌性痢疾爆发的主要因素。
表27-5 不同冷饮史与罹患率的关系
吃冷饮史 |
发病 |
不发病 |
合计 |
罹患率 |
RR |
豆浆 |
冰棍 |
有 |
有 |
517 |
780 |
1297 |
39.86 |
46.3 |
有 |
无 |
59 |
108 |
167 |
35.33 |
41.1 |
无 |
有 |
66 |
665 |
731 |
9.03 |
10.05 |
无 |
无 |
13 |
1502 |
1515 |
0.86 |
1 |
X2=807.24自由度=3P<0.001
资料来源:钱宇平等,流行病学1987