均值
为了标识出身高的位置,定义总体均值为该总体所有成员身高的平均值。总体均值通常以希腊字母μ表示。如果总体是由离散的个体构成,总体均值可以表示为:
总体均值 = (总体中每个成员值加和)/总体成员个数。
用数学语言表示:
<eq. 2.1>
其中\Sigma,大写希腊字母西格马,表示对总体中所有N个成员对应的变量X值求和。把该定义应用在图2-1和2-2可得到火星人的平均身高是40 cm,金星人的平均身高是15 cm. 这两个数字给出这样的定量结论:火星人的身高分布高于金星人。
变异性度量
接着,我们就需要度量相对于均值的弥散度。如果两个值,一个高于或另一个低于均值,但它们离均值距离相等,它们对变异度的贡献相同,尽管其中的一个偏差是正的,另一个是负的。平方使负数变为正的。我们可以计算离均值偏差平方和的平均来描述一个总体相对于均值的变异度。总体内不同个体如果变异越大,离均值偏差平方和均值就越大。比较火星人和金星人即可看出。“离均值偏差平方和均值”这个词太长了,我们一般缩写叫做“方差”(Variance),而且我们这个定义适用于总体,所以叫做“总体方差”(population variance),用\sigma^2,小写西格马的平方。严格定义如下(由离散个体构成的总体):
<eq2.2>
对应的数学公式为:
<eq.2.3>
请注意方差的单位是所研究的变量的单位的平方。具体所来,火星人身高的方差是25 cm^2,而金星人身高的方差是6.3 cm^2.这组数字给出了如下的定量结论:火星人的身高变异度比金星人要大。
因为方差往往难以直观表示,更常见的做法是取方差的平方根,称之为离均值偏差平方和均值平方根。当然这个名称就太坳口了,一般叫它为“标准偏差”(standard deviation)。定义如下:
<eq.2.3>
数学公式为:
其中的符号定义如前。在这里,标准偏差的单位与原始观测数据单位一致。比如,火星人身高的标准偏差是5 cm,金星人的标准偏差是2.5 cm.