Archive for the ‘Biostatistics’ Category

生物统计笔记6:估计有多好?

Wednesday, September 29th, 2010

从一随机样本计算的均值和标准偏差可以作为样本所来自的整个总体的均值和标准偏差的估计值。计算该统计的样本并无任何特别之处,不同的随机样本给出略有不同的总体均值和标准偏差的估计值。为了定量考察这些估计到底有多精确。我们可以计算它们的标准误差。计算任一统计量的标准误差都是可能的,但在这里我们主要关注均值的标准误差。这个统计量给出从任一随机样本的均值作为总体的真正均值的估计准确性的定量评价。

我们先要了解什么是“平均值标准误差”(standard error of the mean)?

图2-6A是我们之前讨论的火星人身高的分布图。在该例子中,我们知道每个火星人的身高,我们可以通过该例子来讨论从一个随机样本计算的统计量在描述整个总体时有多精确。假设我们从200个火星人随机选取10人构成一个样本,然后计算该样本的均值和标准偏差。该10个人在图2-6A中以实心圆表示。在图2-6B中给出这个样本在发表时可能给出的一种形式,平均值(\bar X =41.5 cm)和标准偏差(s =3.8 cm)也标注在上面。这组值与总体均值(\miu=40 cm)和标准偏差(\sigma = 5 cm)很接近,但并不相等。

生物统计笔记5:如何从有限样本来估计总体分布

Wednesday, September 29th, 2010

到目前为止,我们所有的工作都是精确的,因为我们非常耐心地统计了总体的每一成员。然而在实际的情形中,这样的做法往往是不可能的。我们只能研究从一个从总体抽取的由n个个体组成的样本(sample),希望这个样本能够代表整个总体. 因而,我们并不能计算总体的均值\miu和标准偏差\sigma.但是,我们可以从样本来估计这些参数。总体均值的估计值叫做样本均值(sample mean),其定义同总体均值类似。

<eq 2.>

数学公式记作:

其中X头上扛个杠子表示X的n个观测值的平均。

总体标准偏差的估计叫作样本标准偏差(sample standard deviation), s.定义如下:

数学公式记作:

标准偏差也常记作SD。值得注意的是,该定义与总体标准偏差有两点不同:(1)总体均值\miu被其估计值,样本均值\bar{X},所代替; (2)我们计算偏差平方的均值是除以n-1, 而不是n. 理解其中的缘由需要相当的数学讨论,我们可以简单地从如下方面理解~略~

小结一下:如果没有证据表明样本不是从一个正态分布抽取的,计算样本的均值和标准偏差,以这两个参数来概括数据。因为它们是总体均值和标准偏差最好的估计,而这两个参数完全确定了一个正态分布。如果有证据表明研究的总体并不服从正态分布,以中值,1/4和3/4分位值来概括数据。

生物统计笔记4:如何总结数据cont’d

Friday, September 24th, 2010

百分位

在上一集中,我们获得重大理论突破。我们更新了研究课题,建议不仅测量所有木星居民的身高,同时计算所有木星人身高的平均值和标准偏差。结果发现平均身高是37.6 cm,标准偏差是4.5 cm.和表2.1相比,木星人应和火星人身高相似,因为这两个参数完全确定了一个正态分布。

然而,原始数据却告诉我们一个不同的故事。如图2-3a所示,与另两个星球生物不同,木星人的身高并不对称地分布在平均值两侧。总体的全部成员的身高分布并不是对称的了,而是歪到一侧的(skewed)。少数几个身高比其他高的特别多,把均值和标准偏差抬高很多,以至于让我们以为大部分成员身高比他们实际身高高,他们的变异度比实际要大。具体说来,图2-3给出了一个有100个成员的总体,如果他们身高以正态分布分布,并且两个参数同木星人的参数相同,的分布情况。可以看出,该分布与木星人的分布很不同。因此,尽管我们可以计算木星人身高的均值和标准偏差(实际上我们可以计算任一个总体的这两个参数),但是同样的这两个参数并不能很好地刻画身高的分布情况。

因此,我们必须寻找其他的参数来更好地描述类似不服从正态分布的数据。一个方法是中值(median). 中值是这样的一个值,总体中的一半低于它(当然也有一半高于它).如图2-4所示,一半的木星人低于36 cm. 36 cm就是中值。因为是50%的总体数值低于中值,因此也叫做第50个百分位。

中值和其他的百分位值计算很简单。首先,把n个观测值依次排列。中值就是就是排在中间的把数据分成大小两组的那个值。如果总的观测值数目是奇数,中值就是排在最中间的那个值。而当总的观测数目是偶数,排在中间位置的有两个数,我们取两者的均值为中值。比如有 n = 27个观测值,中间的位置是第14位,我们把所有观测值从小到大排列,那么第14个观测值就是中值(比中值小或大的观测值各有13个)。如果另外一组测量共有40个观测值,那么排在中间的是第20和第21个观测值,我们取它们的平均为中值,那么各有20个值大于或小于这个中值。总结说来,如果共有n个观测值,我们先把所有观测值排序,然后计算第(n+1)/2个位置的观测值;如果n是奇数,那么(n+1)/2即为整数,该位置的数值即为中值;如果n是偶数,那么(n+1)/2非整数,数列当然没有这个位置,我们则取离该值最近的两个整数,计算这两个相邻整数位置的数值的平均值,这个平均值则为中值。

其他百分位值以同样的道理定义。如,对于第25个百分位(即25%)值来说,有1/4的观测数据小于它(另外75%大于它). 也就是说我们要取的是排序后观测值数列的第(n+1)/4个观测值。同样的如果该位值落在两个观测位置中间,我们应取两个临近的观测值的平均值。推广开了,第p个百分位是(n+1)(p/100).

为了给出一个总体身高离散度分布情况,我们可以报告第25个百分位值和第75百分位值(也叫做第1个四分位值和第3个四分位值)。这两个值分别把最低的25%和最高的25%身高和另外的75%分开。如图2-4B所示,木星人的这两个分位值分别是34和40 cm。

尽管中位值和上述两个4分位值(分布是34, 36和40 cm)并不能严格定义身高的分布,它们却大致揭示了身高的范围,以及有一部分木星人特别高,特别矮的很少。

尽管大家常用上述三个百分位值,我们当然也可报告5%和95%百分位值。或者我们一起报告5%, 25%, 50%, 75%和95%这些百分位值。

计算总体的百分位值可以让我们比较总体是否近似于正态分布。回想我们前几节讨论过的,对一个正态分布总体而言,大约95%的成员落在均值正负两侧两个标准偏差以内,68%左右的成员落在正负一个标准偏差之内。如图2.5所示, 正态分布的相关百分位值如下:

<table 2.1>

<figure 2.5>

如果一个总体的几个代表性百分位值与从均值和标准偏差计算结果差别不大的话,那么正态分布可以很好地近似总体的真正分布。而用均值和标准偏差来描述该总体是足够了。

那为什么我们如此关心正态分布是不是一个足够好的近似?原因在于很多假设检验统计方法,包括我们要在第2、4和9章要学习的,要求总体服从正态分布。至少是近似服从,否则检验的结论是不可靠的。(第10和11章会介绍其它不需要这一假设的替代检验)

生物统计笔记3:如何总结数据cont’d

Thursday, September 23rd, 2010

正态分布

表2.1总结了目前我们对火星人和金星人的发现。表中三个数字提供了很多信息:总体的大小,平均身高,以及身高相对于均值的变异程度。

两个星球的身高分布的形状很相似。定量地说来:大致有68%的身高落在离均值一个标准偏差的范围内,而大致95%的身高落在离均值两个标准偏差的范围内。这样的规律性现象我们叫做模式(pattern).这样的模式经常出现,数学家对它们研究很多,发现如果观测到的测量是由很多独立小随机因素的加和构成,那么最终的测量获得的值的分布和火星人或金星人的身高分布相似。这样的分布叫做正态(normal)或高斯(gaussian)分布。

<Table 2.1>

在给定任一点X,分布曲线的高度为:

<eq.2.4>

值得注意的是:这种分布完全由总体均值\miu和标准偏差\sigma决定。因此,表2.1中的数据不仅是原始数据的很好的概括,而且如果总体是服从正态分布,它们也是完整描述对应总体所需的全部信息。

生物统计笔记2:如何总结数据cont’d

Thursday, September 16th, 2010

均值

为了标识出身高的位置,定义总体均值为该总体所有成员身高的平均值。总体均值通常以希腊字母μ表示。如果总体是由离散的个体构成,总体均值可以表示为:

总体均值 = (总体中每个成员值加和)/总体成员个数。

用数学语言表示:

<eq. 2.1>

其中\Sigma,大写希腊字母西格马,表示对总体中所有N个成员对应的变量X值求和。把该定义应用在图2-1和2-2可得到火星人的平均身高是40 cm,金星人的平均身高是15 cm. 这两个数字给出这样的定量结论:火星人的身高分布高于金星人。

变异性度量

接着,我们就需要度量相对于均值的弥散度。如果两个值,一个高于或另一个低于均值,但它们离均值距离相等,它们对变异度的贡献相同,尽管其中的一个偏差是正的,另一个是负的。平方使负数变为正的。我们可以计算离均值偏差平方和的平均来描述一个总体相对于均值的变异度。总体内不同个体如果变异越大,离均值偏差平方和均值就越大。比较火星人和金星人即可看出。“离均值偏差平方和均值”这个词太长了,我们一般缩写叫做“方差”(Variance),而且我们这个定义适用于总体,所以叫做“总体方差”(population variance),用\sigma^2,小写西格马的平方。严格定义如下(由离散个体构成的总体):

<eq2.2>

对应的数学公式为:

<eq.2.3>

请注意方差的单位是所研究的变量的单位的平方。具体所来,火星人身高的方差是25 cm^2,而金星人身高的方差是6.3 cm^2.这组数字给出了如下的定量结论:火星人的身高变异度比金星人要大。

因为方差往往难以直观表示,更常见的做法是取方差的平方根,称之为离均值偏差平方和均值平方根。当然这个名称就太坳口了,一般叫它为“标准偏差”(standard deviation)。定义如下:

<eq.2.3>

数学公式为:

其中的符号定义如前。在这里,标准偏差的单位与原始观测数据单位一致。比如,火星人身高的标准偏差是5 cm,金星人的标准偏差是2.5 cm.

生物统计笔记1:如何总结数据

Monday, September 13th, 2010

研究人员收集数据通常有两个目的:(1) 从样本数据来描述采样所对应的总体; (2)对总体进行假设检验。这里我们先讨论第一个目的:如何对所收集的单变量数据进行概括总结,以期对更大的、没有观测到的总体达到最佳描述。

大的说来,有两种情况:

(1) 所研究的总体中每个个体的变量直总是趋向分布在平均值附近,并且比较对称。即比均值小或大的趋势大致相同。这种情况下,观测样本的平均值(mean)和标准偏差(standard deviation)可以描述总体成员分布的位置(location)和变异性(variability)。

(2) 如果变量值趋向于在均值之下(或之上),我们应该至少给出中值(median)和至少另外两个百分位值(percentile)。

为了理解这一规则,我们假设能够观测到总体的每个成员,而不仅仅局限于从一次实验获得的有限样本。

比如,假设想研究火星人的身高,为了避免任何猜测,我们到火星上去一一测量全部人口(共200人)的身高。下图给出了他们身高的分布情况:每个火星人用一个圆圈表示,身高约化到最近的厘米单位。可以发现,大部方火星人身高介于35和45厘米之间,只有很少一部分(10人)低于30 cm或高于50 cm。

<Figure 2.1>

在成功地完成这一项目之后,我们申请课题去测量金星人的身高。由于火星人项目完成很好,项目顺利得到资助,我们即开始测量工作。采用同样保守的策略,我们测量全部150个金星人的身高。同处理火星人身高数据一样,下图把金星人总体身高图示出来。同火星人身高分布趋势一致,所有的金星人身高在15 cm附近,大部分在10 cm和20 cm之间。

<Figure 2.2>

比较上面两副图,可以得出这样的印象:金星人比火星人要矮,而且金星人总体身高的变异比较小。几乎所有的火星人(200人中的194)身高在一个20 cm宽的区间范围(从30到50 cm),而大部分的金星人(150人中的144)身高范围在一个10 cm宽的区间(从10到20 cm)。尽管存在这样的差异,两个总体的分布图仍存在重要相似性:在两个人种中,任一成员更趋向于分布在总体的中间位置附近而不是较远的位置,而且低于或高于平均值的数目相同。事实上,尽管在总体的大小、平均身高和变异性上有差异,两个星球人的身高分布在形状上几乎完全一致。一个非常惊人的发现!

如此一来,我们可以把所有的信息简化到几个数值。这些数值叫做分布的参数(parameter). 既然两个分布形状很相似,我们只需要描述它们在哪些方面不同。我们通过计算平均身高和所有身高相对于均值的差异来实现。