当前位置:首页> 联盟新闻 >从零开始学统计(九)——正态分布的抽样分布特点1

从零开始学统计(九)——正态分布的抽样分布特点1

2021-08-22 22:03:32

上期讲的中心极限定理说的是当独立同分布的样本“序列”集合在一起时,当样本量趋于无限大时,这个“集合”的总体是符合正态分布的。


今天聊的话题是,当总体符合正态分布时,对总体进行随机抽样,这些“抽样”的分布特点,本期先聊聊t分布。理解抽样分布的特点有助与理解为什么有时需要t检验,有时需要X2检验,有时又需要F检验。


抽样方法:抽样有随机抽样和非随机抽样,非随机抽样表示在一个总体内,你带有一定目的的抽样,比如说你有XX省冠心病男性患者的数据,但你只想抽75岁以上患者的数据分析,此时你研究的数据相对于这所医院的患冠心病患者的总体来讲,一定会存在抽样偏差。为了避免这种偏差,你可以采用把所用的患者不记名排序,随机选号抽样(简单随机抽样);或者按不同年龄段患者总数的比例,按照比例盲选样本(类型抽样);或者也可以把患者按年龄不记名排序,以年龄的中位数为中心,每隔x个选一个样本(等距抽样);还有,当你做了几年调查发现,该省每个医院患者年龄结构都差不多,往年调查数据结论也相似,这时,你图省事,随机找两个代表性的医院提供的数据为样本(整群抽样),也是可以的。以上蓝色字部分中,后面四个合称为随机抽样,当然还有别的抽样方式,大家自行了解一下吧。


多次的简单随机抽样中,还有重复抽样和非重复抽样,主要考虑被抽的样本放回和不放回的问题,相信大家很容易联想到二项分布和超几何分布的特点,虽然不是完全一样,但类比一下吧~目前我们主要聊的是更常用的重复抽样哦~

 

抽样分布的概念:当我们从一个已知的总体中进行独立且随机抽样,每次抽取的样本量相同,样本的统计量(就是样本量,样本成数——也叫样本比率,就是抽样样本量与总体样本量的比值,均值,方差这些)也会根据每次独立抽样而变化,这些随机变化的统计量也有自己的分布,这就是抽样分布了。



平均数的抽样分布的特点:

  1. 首先我们设原总体的平均数为μ,方差为σ2,有:

    抽样均数的抽样分布的均值为:

    抽样均数的抽样分布方差为:

    其中,抽样均数的方差表示其与总体均值之间的误差,是由随机抽样造成的系统误差,也把抽样均数的抽样分布的标准差称为平均数的标准误,为:

  2. 对一个服从N(μ,σ2)正态分布的总体进行抽样时,其样本平均数的分布是一具有平均数为μ,方差为σ2/n 的正态分布;

  3. 对于总体分布不为正态分布的时候,我们也是有办法的,因为我们有中心极限定理呀~如果我们对一个总体(平均数为μ,方差为σ2)不断地进行独立随机抽样,那么这些它们的平均数就符合“独立同分布”的条件了,当抽样平均数的样本量n增大时,抽样平均数的分布越接近N(μ,σ2/n )的正态分布,通常人们以n>=30为界,认为n30或超过30时,平均数的抽样分布为正态分布。



了解了上面3点,让我们先看下如何应用:

  • 已知总体标准差时:如果我们知道了总体的标准差,而样本均值抽样分布的均值与总体的均值是相等的,相当于我们掌握了总体的信息,此时我们可以求出样本均值抽样分布的特点。

例:已知一正态总体的μ=3,σ=0.707,试求:若n=4,求此时

解:

查Z值表,得=0.1446;也就是说,当n=4时,样本均值小于2.625的概率为0.1446;

我们通常把来源于总体为正态分布的,已知总体方差时,平均数抽样分布:称为抽样均值服从U分布。


  • 未知总体标准差时:这是常见情况,通常我们需要从抽样分布中探讨总体的分布特点,此时,我们只知道抽样的均值,抽样的方差,不知道总体的情况。但我们知道当n足够大时,抽样均数的抽样分布为正态分布,但反过来推导时,前人发现此时会服从另一种分布,为自由度为n-1的t分布了。怎么推理的我们不管,只要会用就行了。


先看一下概念:当总体的标准差未知时,使用样本的标准差S来代替总体标准差时我们发现:

服从自由度df=n-1的t分布,此时,称为样本标准误差;t分布的分布函数为:

其中,Gam(x)为伽马函数,x表示每次抽样的实际上这么给出t分布的定义仍不够严密,t分布要求X服从标准正态分布N0,1)且S2服从X2(n)的分布,下一讲我们会提及。


由上图可以得知当自由度df=∞时,同分布变成了N(0,1)的标准正态分布,而其他自由度的t分布都有一个特点,相对与标准正态分布,它们两段“翘”,中间“矮”,说明自由度越低,分布越不集中,由此可见n越大,样本均值的抽样分布的均值约接近总体均值,可信度也越高。

t分布与正态分布相似,都是对称分布,对于t分布,网上也可以查到通过自由度估算其密度函数与x轴之间所围面积的t指标,这个面积就是概率啦~我们来看看怎么利用它!

 

例:假如在服用某种新药3个月后的7位患者的血压测量结果比服用前分别增加了1.52.90.93.93.22.11.9,请算出服用该药的所有病人血压增加的值的期望的95%置信区间。

解:首先,服用该药的患者之间是独立的,当服用该药的人数接近于无穷时,我们认为患者血压升高量的总体是服从正态分布的。

已知7位患者血压增高值:

标准差为:

此时,标准误为:

由于样本量n=7,很小,因此,服从t分布,且自由度v=n-1=6;

此时我们类比一下正态分布的Z值的意义,Z表示距离均值μ有几个σ?

如果我们把抽样分布的标准误类比于正态分布的σ,那么t值的意义就是:距离均值μ有几个标准误?

好的,我们查t值表,自由度为6时,95%的概率下,t值为2.447,也就是说:要保证95%的置信区间时,均值于95%置信区间的分界点(假设为a)之间的距离时2.447个标准误。

刚刚我们算了标准误为0.39,于是,均值与a的距离为2.447×0.39=0.96

所以所有病人血压增加的值的期望的有95%的可能落在(2.34-1.382.34+1.38),即(1.383.30)的区间内;


好了,下期我们聊聊抽样方差的抽样分布吧,拜~












友情链接