《预防医学》 > 第十六章 统计学方法基本概念和步骤

第一节 几个基本概念

 

一、同质与变异

严格地讲,同质(homogeneity)是指被研究指标的影响因素相同。但在医学研究中有些影响因素往往是难以控制的、甚至是未知的、如遗传、营养等。因此,在实际工作中只有相对的同质,即可以把同质理解为影响被研究指标较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高,则要求影响身高这一指标较大的、易控制的因素如性别、年龄、民族、地区要相同,而不能控制的因素像遗传、营养等影响因素可以略去。同质基础上的各观察单位(亦称为个体)之间的差异为变异(variation)。如同性别、同年龄、同民族、同地区儿童的身高有高有低,称为身高的变异。

 

二、总体与样本

总体(population)是根据研究目的而确定的同质的个体之全部。确切地说,是性质相同的所有观察单位某一变量值的集合。例如研究某地1993年健康成年男性的身高(cm),则该地1993年全部健康成年男子的身高构成一个总体。该总体只包括有限个观察单位,称为有限总体。有时总体是设想的中是抽象的,例如研究用某药治疗冠心病患者的疗效,其总体的同质基础是同用该药治疗的冠心病患者,而总体为设想用该药治疗的所有冠心病患者的治疗结果,这里没有确定的时间和空间范围的限制,因而观察单位数无限,称为无限总体。

实际工作中,经常是从总体中随机抽取一定数量的个体,作为样本(sample),用样本信息来推断总体特征。从总体中抽取部分个体的过程称为抽样。抽样必须遵循随机化原则,即要使总体中每一个体有同等的机会被抽取*,这样的样本对总体有较好的代表性,能根据其统计量推断总体特征。

 

三、抽样误差(sampling error)

由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性,以后将讨论和应用这种规律性。

 

四、概率(probability)

概率是反映某一事件发生的可能性大小的量。常用符号P表示,范围在0与1之间。P≤0.05和P≤0.01分别表示事件发生的可能性等于或小于0.05和等于或小于0.01。习惯上把P≤0.05或P≤0.01的事件称为小概率事件,表示某事件发生的可能性很小。