《预防医学》 > 第十八章 计量数据分析(一)

第三节 正态分布和医学正常值范围的估计

 

一、正态分布

(一)正态分布的图形

将表18-1的110名20岁健康男大学生身高频数分布绘成图18-1中的(1),可见高峰位于中部,左右两侧大致对称。可以设想,如果抽样观察例数逐渐增多,组段不断分细,就会逐渐形成一条高峰位于中央(均数所在处)、两侧完全对称地降低、但永远不与横轴相交的钟型曲线(图18-1中的(3)),这条曲线近似于数学上的正态分布(normal distribution)曲线。

统计学家按其变化参数,推导出正态分布密度函数f(X)

-∞<X<+∞公式(18.16)

式中μ为均数;σ为标准差;π为圆周率;е为自然对数的底,即2.71828。以上均为常数,仅X为变量。

为了应用方便,常将式(18.16)进行变量变换—u变换(即u=(X-μ)/σ),u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standard normaldistribution)亦称u分布,如图18-2。

频数分布逐渐接近正态分布示意

图18-1 频数分布逐渐接近正态分布示意

正态分布与标准正态分布的面积与纵高

图18-2 正态分布与标准正态分布的面积与纵高

此时,式( 18.16)化成

- ∞<u<+∞ 公式(18.17)

式中,φ(u)为标准正态分布的密度函数,即纵轴高度。

根据X和u的不同取值,分别按式(18.16)和式(18.17)可以绘出正态分布和标准正态分布的图形(图18-2)。

(二)正态分布的特征

由式(18.16 )gn (18.17)可看出正态分布有下列特征:①正态曲线(normal curve)在横轴上方均数处最高。②正态分布以均数为中心,左右对称。③正态分布两个参数(parameter),即均数μ和标准差σ;常用N(μ,σ)表示均数为μ、标准差为σ的正态分布;所以标准正态分布用N(0,1)表示。④正态曲线在±1σ处各有一人拐点。⑤正态曲线下的面积分布有一定的规律。

 

二、正态曲线下面积的分布规律

正态曲线下一定区间的面积可以通过对式(18.16)和式(18.17)积分求得。为了省去计算的麻烦,有人按式(18.17)编成了附表18-1“标准正态分布曲线下的面积”通过查表可求出正态曲线下某区间的面积,进而估计该区间的观察例数占总例数的百分数或变量值落在该区间的概率。查表时应注意:①表中曲线下面积为自-∞到u的面积;②当μ,σ已知时,先根据u变换(即u=(X-μ)/σ)求得u值,再查表;③当μ,σ未知且样本含量n足够大时,常用样本均数x和样本标准差s分别代替μ和σ进行u变换[即u=(X-μ)/S],求得u的估计值,再查表;④曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,+∞)的面积相等;⑤曲线下横轴上的总面积为100%或1。

下面三个区间的面积应用较多,要求记住,并结合图18-3理解其意义。①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的68.27%;②标准正态分布时间(-1.96,1.96)或正态分布时区间(μ-1.96,μ+1.96)的面积占总面积的95.00%;③标准正态分布区间(-2.58,2.58)或正态分布时间区(μ-2.58,μ+2.58)的面积占总面积的99.00%。

正态与标准正态曲线及其面积分布

图18-3 正态与标准正态曲线及其面积分布

 

三、医学正常值范围的估计

(一)正常值范围(normal range)的意义

正常值是指正常人体或动物体的各种生理常数,正常人体液和排泄物中某种生理、生化指标或某种元素的含量,以及人体对各种试验的正常反应值等。由于存在变异,各种数据不仅因人而异,而且同一个人还会随机体内外环境的改变而改变,因而需要确定其波动的范围,即正常值范围。

制定正常值范围,①首先要确定一批样本含量足够在的“正常人”。所谓“正常人”不是指机体任何器官、组织的形态及机能都正常的人,而是指排除了影响所研究指标的疾病的有关因素的同质人群。②根据指标的实际用途确定单侧或双侧界值:若某种指标过高或过低均属异常,需要确定正常值范围的下限和上限,如白细胞计数;若某指标过高为异常,需确定上限,如尿铅;若某指标过低为异常,需确定下限,如肺活量。③根据研究目的的和实用要求选定适当的百分界值,常用80%、90%、95%或99%,其中最常用的是95%。④根据资料的分布特点,选用恰当的界值计算方法,如正态分布资料用正态分布法;对数正态分布资料用对数正态分布法;偏态分布资料用百分位数法。

(二)正常值范围估计

计算正常值百分界值的方法甚多,如正态分布法、对数正态分布法、正态概率纸法、百分位数法、曲线拟合法、容许区间法等。现以95%正常值范围为例,主要介绍以下三种。

1.正态分布法:适用于正诚或近似正态分布资料。

双侧界值:x±1.96s

单侧上界:x+1.645s

单侧下界:x-1.645s

2.对数正态分布法:适用于对数正态分布资料。

双侧界值:lg-1(xlgx±1.96slgx)

单侧上界:lg-1(xlgx+1.645slgx)

单侧下界:lg-1(xlgx-1.645slgx)

3.百分位数法:常用于偏态分布资料。

双侧界值:P2.5和P97.5

单侧上界:P95

单侧下界:P5

例18.13 试估计表18-1中110名20岁健康男大学生身高的95%正常值范围。

该指标计算双侧界值

x±1.96s=172.73±1.96×4.09

该指标的95%正常值范围为 164.71~180.75(cm)

例18.14 某年某市调查了200例正常成人血铅含量(μg/100g)如下,试估计该市成人血铅含量95%正常值范围单侧上界。

34444455555555556666
66677777777777778888
88888889999999101010101010
1010101111111111121212121212121313131313
1313131313131314141414141414141414151515
1515151516161616161617171717171717171717
1717181818181819191919191920202020202020
2021212121212222222222222323232424242424
2425252626262626272728282929303031313131
3232323232323333363838394041414347505360

该资料为偏态分布,经对数变换(即原始数据取对数)后,整理成频数表,见表18-5。从频数分布看,近似正态分布,计算对数形式的均数与标准差,得:

xlgx=Σflgx/Σf=230.0/200=1.15

其95%正常值范围的单侧上界为lg-1xlgx+1.645slgx)=lg-11。5942=39(μg/100g)

即该市正常成人血铅含量的95%正常值为39μg/100g以下。

例18.15 试用百分位数法估计例18.14资料的95%正常值的单侧上界。

该资料不经对数转换时为偏态分布,也可用百分位数法估计。先整理成频数表,见表18-6。

P95=L+i/f95(n×95%-ΣfL)=38+5/7(200×95%-189)=38.7(μg/100g)

表18-5 200名血铅值对数变换后的频数表及gx slgx计算表

对数组段频数f组中值(lgX)flgXFlgX2
0.45~10.50.50.25
0.55~50.63.01.80
0.65~100.77.04.90
0.75~200.816.012.80
0.85~110.99.98.91
0.95~211.021.021.00
1.05~291.131.935.09
1.15~251.230.036.00
1.25~301.339.050.07
1.35~201.428.039.20
1.45~161.524.036.00
1.55~81.612.820.48
1.65~31.75.18.67
1.75~1.8411.81.83.24
合计200 230.00279.04

表18-6 200名血铅值频数表及P95计算表

组段频数f累计频数Σf累计频率(%)
3~363618.0
8~397537.5
13~4712261.0
18~3015276.0
23~1817085.0
28~1618693.0
33~318994.5
38~719698.0
43~119798.5
48~119899.0
53~119999.5
58~621200100.0