快捷搜索:  汽车  科技

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线通过Python可以很容易地绘制出标准正态分布的分布曲线图。当μ=0,σ=1时,相应的正态分布N(0 1)称为标准正态分布。自然界中很多现象都是符合正态分布,比如:正态分布的概率密度函数为:其中,μ为均值,σ为标准差。

现代统计学奠基人之一、英国统计学家费希尔(Fisher)曾把抽样分布、参书估计和假设检验看作统计推断的三大中心内容。

统计学中,需要研究统计量的性质,并评价一个统计推断的优良性,而这些取决于其抽样分布的性质,所以,抽样分布是统计学中的重要内容。

统计学中常见的抽样分布有4种:正态分布、卡方分布、t分布、F分布,后面三大分布都是在正态分布的基础上推导出来的。

正态分布

正态分布是最重要的一种分布,其分布曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形。

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(1)

自然界中很多现象都是符合正态分布,比如:

  • 人的身高,特别高和特别矮的人都是少数,中等身材的占大多数。
  • 一个班的成绩,特别低和特别高的都是少数,处于中间状态的占大多数。

正态分布的概率密度函数为:

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(2)

其中,μ为均值,σ为标准差。

当μ=0,σ=1时,相应的正态分布N(0 1)称为标准正态分布

通过Python可以很容易地绘制出标准正态分布的分布曲线图。

from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 import numpy as np from scipy import stats import matplotlib.pyplot as plt mu=0 sigma=1 x=np.arange(-5 5 0.1) y=stats.norm.pdf(x 0 1) plt.plot(x y) plt.title("正态分布曲线:$\mu$=%.1f $\sigma^2$=%.1f" % (mu sigma)) plt.ylabel("概率密度" fontsize=14) plt.show()

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(3)

卡方分布

卡方分布由阿贝(Abbe)于1863年首先提出的,并由Hermert(赫尔默特)和Pearson(皮尔逊)分别于1875年和1900年推导出来。

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(4)

设置自由度为5,通过Python绘制出卡方分布的分布曲线图。

from scipy.stats import chi2 # 卡方分布 df = 5 # 自由度 x = np.linspace(chi2.ppf(0.01 df) # 绘制概率密度图 chi2.ppf(0.99 df) 100) plt.plot(x chi2.pdf(x df) alpha=0.6 label='chi2 pdf') plt.title(u'自由度为5时的卡方分布曲线图' fontsize=12) plt.show()

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(5)

增大自由度到20,通过Python绘制出卡方分布的分布曲线图。

from scipy.stats import chi2 # 卡方分布 df = 100 # 自由度 x = np.linspace(chi2.ppf(0.01 df) # 绘制概率密度图 chi2.ppf(0.99 df) 100) plt.plot(x chi2.pdf(x df) alpha=0.6 label='chi2 pdf') plt.title(u'自由度为20时的卡方分布曲线图' fontsize=12) plt.show()

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(6)

从上面可以看出,当自由度不断增大时,卡方分布趋于正态分布。

t分布

t分布也称学生氏分布,由Gosset(戈赛特)于1908年以Student(学生)为笔名发表的论文中首次提出。

说明:据说当时他还在都柏林的健力士酿酒厂工作,不能以他本人的名义发表。

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(7)

设置自由度为5,通过Python绘制出t分布的分布曲线图。

from scipy.stats import t df = 5 x = np.linspace(t.ppf(0.01 df) t.ppf(0.99 df) 100) plt.plot(x t.pdf(x df) alpha=0.6 label="t分布") plt.title('自由度为5时的t分布曲线图' fontsize=12) mu=0 sigma=1 x=np.arange(-5 5 0.1) y=stats.norm.pdf(x 0 1) plt.plot(x y label="正态分布") plt.legend(loc="best") plt.show()

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(8)

增大自由度到15,通过Python绘制出t分布的分布曲线图。

from scipy.stats import t df = 15 x = np.linspace(t.ppf(0.01 df) t.ppf(0.99 df) 100) plt.plot(x t.pdf(x df) alpha=0.6 label="t分布") plt.title('自由度为15时的t分布曲线图' fontsize=12) mu=0 sigma=1 x=np.arange(-5 5 0.1) y=stats.norm.pdf(x 0 1) plt.plot(x y label="正态分布") plt.legend(loc="best") plt.show()

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(9)

从上面可以看出,当自由度不断增大时,t分布趋于正态分布。

F分布

F分布由统计学家费希尔(Fisher)首先提出,并以其姓氏的第一个字母命名的,所以叫F分布。

F分布在方差分析、回归分析的显著性检验中有着重要的应用。

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(10)

可以看到,F分布有两个自由度,分别为第一自由度和第二自由度,而且它们的位置不可互换。

设置第一自由度为10,第二自由度为10,通过Python绘制出F分布的分布曲线图。

from scipy.stats import f df1=10 df2=10 x = np.linspace(f.ppf(0.01 df1 df2) f.ppf(0.99 df1 df2) 1000) plt.plot(x f.pdf(x df1 df2) alpha=0.6) plt.title('第一自由度为10,第二自由度为10的F分布曲线图' fontsize=12) plt.show()

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(11)

增大自由度,第一自由度为100,第二自由度为100,通过Python绘制出F分布的概率密度曲线图。

from scipy.stats import f df1=100 df2=100 x = np.linspace(f.ppf(0.01 df1 df2) f.ppf(0.99 df1 df2) 1000) plt.plot(x f.pdf(x df1 df2) alpha=0.6) plt.title('第一自由度为100,第二自由度为100的F分布曲线图' fontsize=12) plt.show()

统计学中抽样分布的定义:统计学中常见的4种抽样分布及其分布曲线(12)

从上面可以看出,自由度会影响F分布的形态。

总结

正态分布是核心,其他三大分布:卡方分布、t分布、F分布均由正态分布导出。

关于抽样分布,你有什么看法呢?欢迎在评论区留言!

猜您喜欢: