总体均值的估计例题(总体均数的区间估计)
总体均值的估计例题(总体均数的区间估计)在正态分布总体中进行抽样,(xˉ-μ)/(S/√n)服从自由度为n=v-1的t分布。事实上,总体标准差σ通常是未知的,这时我们可以用其估计量S代替σ,但在这种情况下,1式中(xˉ-μ)/(S/√n)已不再服从标准正态分布,而是服从著名的t分布。从而得到95%的可信区间:一般的情况:其中Zα/2为标准正态分布的双侧界值,即标准正态分布左右两侧概率相加为α时对应的上侧界值。若取1-α=0.95,则为总体均数的95%可信区间,或取1-α=0.99,则为总体均数的99%的可信区间。须注意的是,μ不是一个随机变量,而是包含在可信区间内的一个参数。
总体均数μ可信区间的计算公式可以利用样本均数xˉ的抽样分布获得。实际中,总体均数可信区间的计算方法,根据总体标准差σ是否已知,以样本量n的大小而有所不同。
σ已知如果变量X服从均数μ、标准差为σ的正态分布,则
服从标准正态分布。
按照标准正态分布规律,95%的z值在-1.96和1.96之间,即
从而得到95%的可信区间:
一般的情况:
其中Zα/2为标准正态分布的双侧界值,即标准正态分布左右两侧概率相加为α时对应的上侧界值。若取1-α=0.95,则为总体均数的95%可信区间,或取1-α=0.99,则为总体均数的99%的可信区间。须注意的是,μ不是一个随机变量,而是包含在可信区间内的一个参数。
σ未知事实上,总体标准差σ通常是未知的,这时我们可以用其估计量S代替σ,但在这种情况下,1式中(xˉ-μ)/(S/√n)已不再服从标准正态分布,而是服从著名的t分布。
在正态分布总体中进行抽样,(xˉ-μ)/(S/√n)服从自由度为n=v-1的t分布。
t分布随着自由度v的增大,t分布的曲线越来越接近于标准正态分布曲线;当n趋近于无穷大时,t分布的极限分布就是标准正态布。
v不同时,t分布曲线的不同
t分布不是一条曲线,而是一簇曲线。
因此,t分布曲线下面积95%的界值不是一个常量,它随自由度大小不同而变化。
为了应用方便,可根据书中附表查找相应的t界值。t界值表中给出了不同自由度情况下,单侧概率和双侧概率对应的t界值。如当v=24、双侧概率α=0.05时,由表中查得t0.05/2 24=2.064 此处2.064即为两侧尾部概率各为0.025的t界值。
t分布界值表
按t分布规律,95%的t值在-t0.05/2 v和t0.05/2 v之间,即
从而得到95%的可信区间:
更一般的情况:
大样本在大样本情况下(n>50) 无论变量X是否服从正态分布,按照中心极限定理样本均数都服从正态分布,同时t分布逼近标准正态分布,可信区间可以用下式近似计算:
例题1某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L 标准差为0.59g/L 试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。
本例σ未知,用t分布计算。
n=25 Xˉ=3.32 S=0.57 v=n-1=25-1=24 α=0.05 查t值表t0.05/2 24=2.064
该资料计算得到,动脉粥样硬化病人血浆纤维蛋白原含量总体均数的95%可信区间为3.08~3.56g/L。
例题2假设健康成年男子红细胞计数服从均数为μ=4.75×10¹²/L,标准差为σ=0.38×10¹²/L的正态分布 现随机抽取140人,计算红细胞的样本均数为Xˉ=4.77×10¹²/L。试计算该地成年男子红细胞总体均数的95%可信区间。
本例属于大样本(n>50),可采用正态近似的方法计算可信区间 (α=0.05)。因为Xˉ=4.77 S=0.38 n=140 则95%可信区间为
估计该地成年男子红细胞总体均数的95%可信区间为4.71×10¹²~4.83×10¹²/L。