百分位
在上一集中,我们获得重大理论突破。我们更新了研究课题,建议不仅测量所有木星居民的身高,同时计算所有木星人身高的平均值和标准偏差。结果发现平均身高是37.6 cm,标准偏差是4.5 cm.和表2.1相比,木星人应和火星人身高相似,因为这两个参数完全确定了一个正态分布。
然而,原始数据却告诉我们一个不同的故事。如图2-3a所示,与另两个星球生物不同,木星人的身高并不对称地分布在平均值两侧。总体的全部成员的身高分布并不是对称的了,而是歪到一侧的(skewed)。少数几个身高比其他高的特别多,把均值和标准偏差抬高很多,以至于让我们以为大部分成员身高比他们实际身高高,他们的变异度比实际要大。具体说来,图2-3给出了一个有100个成员的总体,如果他们身高以正态分布分布,并且两个参数同木星人的参数相同,的分布情况。可以看出,该分布与木星人的分布很不同。因此,尽管我们可以计算木星人身高的均值和标准偏差(实际上我们可以计算任一个总体的这两个参数),但是同样的这两个参数并不能很好地刻画身高的分布情况。
因此,我们必须寻找其他的参数来更好地描述类似不服从正态分布的数据。一个方法是中值(median). 中值是这样的一个值,总体中的一半低于它(当然也有一半高于它).如图2-4所示,一半的木星人低于36 cm. 36 cm就是中值。因为是50%的总体数值低于中值,因此也叫做第50个百分位。
中值和其他的百分位值计算很简单。首先,把n个观测值依次排列。中值就是就是排在中间的把数据分成大小两组的那个值。如果总的观测值数目是奇数,中值就是排在最中间的那个值。而当总的观测数目是偶数,排在中间位置的有两个数,我们取两者的均值为中值。比如有 n = 27个观测值,中间的位置是第14位,我们把所有观测值从小到大排列,那么第14个观测值就是中值(比中值小或大的观测值各有13个)。如果另外一组测量共有40个观测值,那么排在中间的是第20和第21个观测值,我们取它们的平均为中值,那么各有20个值大于或小于这个中值。总结说来,如果共有n个观测值,我们先把所有观测值排序,然后计算第(n+1)/2个位置的观测值;如果n是奇数,那么(n+1)/2即为整数,该位置的数值即为中值;如果n是偶数,那么(n+1)/2非整数,数列当然没有这个位置,我们则取离该值最近的两个整数,计算这两个相邻整数位置的数值的平均值,这个平均值则为中值。
其他百分位值以同样的道理定义。如,对于第25个百分位(即25%)值来说,有1/4的观测数据小于它(另外75%大于它). 也就是说我们要取的是排序后观测值数列的第(n+1)/4个观测值。同样的如果该位值落在两个观测位置中间,我们应取两个临近的观测值的平均值。推广开了,第p个百分位是(n+1)(p/100).
为了给出一个总体身高离散度分布情况,我们可以报告第25个百分位值和第75百分位值(也叫做第1个四分位值和第3个四分位值)。这两个值分别把最低的25%和最高的25%身高和另外的75%分开。如图2-4B所示,木星人的这两个分位值分别是34和40 cm。
尽管中位值和上述两个4分位值(分布是34, 36和40 cm)并不能严格定义身高的分布,它们却大致揭示了身高的范围,以及有一部分木星人特别高,特别矮的很少。
尽管大家常用上述三个百分位值,我们当然也可报告5%和95%百分位值。或者我们一起报告5%, 25%, 50%, 75%和95%这些百分位值。
计算总体的百分位值可以让我们比较总体是否近似于正态分布。回想我们前几节讨论过的,对一个正态分布总体而言,大约95%的成员落在均值正负两侧两个标准偏差以内,68%左右的成员落在正负一个标准偏差之内。如图2.5所示, 正态分布的相关百分位值如下:
<table 2.1>
<figure 2.5>
如果一个总体的几个代表性百分位值与从均值和标准偏差计算结果差别不大的话,那么正态分布可以很好地近似总体的真正分布。而用均值和标准偏差来描述该总体是足够了。
那为什么我们如此关心正态分布是不是一个足够好的近似?原因在于很多假设检验统计方法,包括我们要在第2、4和9章要学习的,要求总体服从正态分布。至少是近似服从,否则检验的结论是不可靠的。(第10和11章会介绍其它不需要这一假设的替代检验)