到目前为止,我们所有的工作都是精确的,因为我们非常耐心地统计了总体的每一成员。然而在实际的情形中,这样的做法往往是不可能的。我们只能研究从一个从总体抽取的由n个个体组成的样本(sample),希望这个样本能够代表整个总体. 因而,我们并不能计算总体的均值\miu和标准偏差\sigma.但是,我们可以从样本来估计这些参数。总体均值的估计值叫做样本均值(sample mean),其定义同总体均值类似。
<eq 2.>
数学公式记作:
其中X头上扛个杠子表示X的n个观测值的平均。
总体标准偏差的估计叫作样本标准偏差(sample standard deviation), s.定义如下:
数学公式记作:
标准偏差也常记作SD。值得注意的是,该定义与总体标准偏差有两点不同:(1)总体均值\miu被其估计值,样本均值\bar{X},所代替; (2)我们计算偏差平方的均值是除以n-1, 而不是n. 理解其中的缘由需要相当的数学讨论,我们可以简单地从如下方面理解~略~
小结一下:如果没有证据表明样本不是从一个正态分布抽取的,计算样本的均值和标准偏差,以这两个参数来概括数据。因为它们是总体均值和标准偏差最好的估计,而这两个参数完全确定了一个正态分布。如果有证据表明研究的总体并不服从正态分布,以中值,1/4和3/4分位值来概括数据。