研究人员收集数据通常有两个目的:(1) 从样本数据来描述采样所对应的总体; (2)对总体进行假设检验。这里我们先讨论第一个目的:如何对所收集的单变量数据进行概括总结,以期对更大的、没有观测到的总体达到最佳描述。
大的说来,有两种情况:
(1) 所研究的总体中每个个体的变量直总是趋向分布在平均值附近,并且比较对称。即比均值小或大的趋势大致相同。这种情况下,观测样本的平均值(mean)和标准偏差(standard deviation)可以描述总体成员分布的位置(location)和变异性(variability)。
(2) 如果变量值趋向于在均值之下(或之上),我们应该至少给出中值(median)和至少另外两个百分位值(percentile)。
为了理解这一规则,我们假设能够观测到总体的每个成员,而不仅仅局限于从一次实验获得的有限样本。
比如,假设想研究火星人的身高,为了避免任何猜测,我们到火星上去一一测量全部人口(共200人)的身高。下图给出了他们身高的分布情况:每个火星人用一个圆圈表示,身高约化到最近的厘米单位。可以发现,大部方火星人身高介于35和45厘米之间,只有很少一部分(10人)低于30 cm或高于50 cm。
<Figure 2.1>
在成功地完成这一项目之后,我们申请课题去测量金星人的身高。由于火星人项目完成很好,项目顺利得到资助,我们即开始测量工作。采用同样保守的策略,我们测量全部150个金星人的身高。同处理火星人身高数据一样,下图把金星人总体身高图示出来。同火星人身高分布趋势一致,所有的金星人身高在15 cm附近,大部分在10 cm和20 cm之间。
<Figure 2.2>
比较上面两副图,可以得出这样的印象:金星人比火星人要矮,而且金星人总体身高的变异比较小。几乎所有的火星人(200人中的194)身高在一个20 cm宽的区间范围(从30到50 cm),而大部分的金星人(150人中的144)身高范围在一个10 cm宽的区间(从10到20 cm)。尽管存在这样的差异,两个总体的分布图仍存在重要相似性:在两个人种中,任一成员更趋向于分布在总体的中间位置附近而不是较远的位置,而且低于或高于平均值的数目相同。事实上,尽管在总体的大小、平均身高和变异性上有差异,两个星球人的身高分布在形状上几乎完全一致。一个非常惊人的发现!
如此一来,我们可以把所有的信息简化到几个数值。这些数值叫做分布的参数(parameter). 既然两个分布形状很相似,我们只需要描述它们在哪些方面不同。我们通过计算平均身高和所有身高相对于均值的差异来实现。
Tags: summarize data