数据分段整理和统计:数据分布的编制与显示
数据分段整理和统计:数据分布的编制与显示② 确定组距在组距分组中,每组的最大值(max)和最小值(min)之间的距离称为组距。确定了分组的组数之后,接下来就需要确定出分组的组距。等距分组的组距可根据变量值的取值范围和已确定的数组而定,记观测变量中的第i个变量值为xi 等距分组的组距为 则由下式可计算出的最低值为:① 确定组数采用组距分组方法对变量的取值进行分组,各组的区间长度可以相等,也可以不等,各组区间长度相等的称为等距分组,各组区间长度不相等的称为异距分组。若观测变量的取值变动不均匀,如急剧增大、变小、变动幅度很大时,应采用异距分组;若观测变量的取值变动均匀,则应采用等距分组。等距分组便于比较和分析处理,因此,在实践中应尽量采用等距分组。组距分组的组数究竟应该取多少并没有绝对的标准,一般来说,组数的多少应根据所取得的观测变量中观测值的个数来确定,当变量的观测值较多时,组数应多些,而观测值较少时,组数应少些。分组的组数
次数分布的编制与显示
1. 次数分布的概念
观测变量的各个不同数值及每个不同数值的出现次数的顺序排列,称为变量的次数分布。列出观测变量的次数分布是展示统计活动所取得数据的分布状况的最基本方法,也是描述观测数据状况的首要方法。对于一个总体来说,如果能够取得所观测变量在总体所包含的全部个体上的数值,那么顺序列出从总体中该观测变量的全部不同取值及每个不同数值在观测登记中所出现的次数,就可得到该观测变量总体的次数分布。
2. 次数分布表及其编制
观测变量的次数分布通常用统计表来表示,这种表示观测变量的次数分布的统计表,就称为次数分布表。显然,一个次数分布表必须由两列或两行构成,一列或一行是观测变量的各个不同数值;另一列或另一行是观测变量的各个不同数值出现的次数。顺序一一列出的观测变量的每个不同取值就形成了一个组,称为次数分布表的组变量值;而每个组变量值的次数则是该组变量值在总体或样本中出现的次数,称为组次数;各组次数与总次数的比值,称为组比重或组频率。在实践中,编制观测变量次数分布表的方法通常有单值分组次数分布表和组距分组次数分布表两种形式。
(1)单值分组次数分布表在编制次数分布表时,会遇到所观测变量是离散的且只取少数几个不同数值的情况,例如,很多用名义尺度进行计量的观测变量和用顺序尺度计量的观测变量以及一些用差距尺度和比例尺度计量的观测变量。对于这种离散的只取少数几个不同数值的观测变量,要列出其次数分布,就可以采用单值分组的方式,将此观测变量的每一个不同取值作为一组,即用每一个不同的取值代表一个组的变量值,并计算出各组变量值出现的个数即各组次数,然后顺序列在次数分布表中。这样的次数分布表就称为单值分组次数分布表。
(2)组距分组次数分布表在统计实践活动中,当遇到取值较多的离散型变量或者是连续型变量时,则需编制组距分组的次数分布表,例如,对于许多用差距尺度和比例尺度计量的观测变量就是如此,尤其一些连续变量不仅取值的范围很大,而且在其取值的范围内连续不间断地取值,对于这样的观测变量,为了较好地显示出其取值的分布特征,就不能采用单值分组的方法,而需要采用次数分布组距分组的方式来编制其次数分布表。所谓观测变量的组距分组次数分布表,就是将观测变量的整个取值范围依次划分成若干个区间,每个区间作为一个分组,并计算出每个分组区间上观测变量的变量值的个数,然后依次将各个分组区间和各分组区间上变量值的个数在一个统计表中顺序列出,就得到了观测变量的组距分组次数分布表。通常,编制组距分组次数分布表有以下五个步骤:
① 确定组数采用组距分组方法对变量的取值进行分组,各组的区间长度可以相等,也可以不等,各组区间长度相等的称为等距分组,各组区间长度不相等的称为异距分组。若观测变量的取值变动不均匀,如急剧增大、变小、变动幅度很大时,应采用异距分组;若观测变量的取值变动均匀,则应采用等距分组。等距分组便于比较和分析处理,因此,在实践中应尽量采用等距分组。组距分组的组数究竟应该取多少并没有绝对的标准,一般来说,组数的多少应根据所取得的观测变量中观测值的个数来确定,当变量的观测值较多时,组数应多些,而观测值较少时,组数应少些。分组的组数不宜太少,也不宜过多。组数太少难以反映出变量分布的实际特征,组数太多则太琐碎,也难以反映出观测变量分布的特征。对于异距分组,组数的多少,可在考虑观测变量值个数多少的基础上,再考虑变量取值变动的特点而确定。对于等距分组,斯特吉斯曾给出一个大致的计算组数的公式,可作为参考。记变量值的个数为N,组数为m,则斯特吉斯公式为:m 13.322lg N 。
② 确定组距在组距分组中,每组的最大值(max)和最小值(min)之间的距离称为组距。确定了分组的组数之后,接下来就需要确定出分组的组距。等距分组的组距可根据变量值的取值范围和已确定的数组而定,记观测变量中的第i个变量值为xi 等距分组的组距为 则由下式可计算出的最低值为:
③ 确定组限在组距分组中,每组的最大值称为该组的上限,每组的最小值称为该组的下限,上限和下限统称为组限。在确定了分组的组数和组距之后,就需要确定各组的组限。各组的组限应尽量用整数,特别是 5 或 10 的倍数来表示。因此,在确定各组的组限时,如果变量的最小值为整数,就可将此变量的最小值作为最低一组的下限;如果变量的最小值不是整数,就可23用比此变量的最小值稍小一点的整数值作为最低一组的下限。确定了最低一组的下限以后,依次每增加一个组距就是一个组限,当组限值增加到比变量的最大值还大时即为最高组的上限。这样,就实现了观测变量的组距分组。组限的表示方法根据变量的不同也有所不同。若变量是离散变量,则相邻两组中变量值较小的一组的上限和变量值较大一组的下限可分别用相邻的两个整数值表示;若变量是连续变量或是可取整数又可取非整数的离散变量,则相邻两组变量值较小的一组的上限和变量值较大一组的下限只能用同一数值表示。为了不违反分组的互斥性原则,在后一种情况下一般规定上限不包含在本组之内,称为“上限不在内原则”,这是一个约定俗称的原则。需要指出,虽然只取整数值的变量分组时相邻两组的上下限应分别用相邻的两个整数值表示,但是在实践中,当该变量的数值较大时,为了简便也常采用同一数值来表示。
④ 计算各组的次数(频数)在确定了各组的组限以后,就需要计算出变量值中落入各组之内的个数,每组所分配的变量值得个数也就是该组的次数(频数)。
⑤ 列出组距分组次数分布表当各组变量值的变动范围和各组的次数确定之后,接下来就可以将各组变量值按照从小到大的顺序排列,并列出相对应的次数,就形成组距分组次数分布表,通常又将这种次数分布表称为变量数列。
(3)累计频数和累计频率
① 累计频数(或频率)分布数列在研究频数或频率分布时,还常常需要编制累计频数数列和累计频率数列。累计频数(或频率)可以采用向上累计频数(或频率),也可以采用向下累计频数(或频率)。
向上累计频数(或频率)的具体做法是:由变量值低的组向变量值高的组依次累计频数(或频率)。
向上累计频数的结果表明某组上限以下的各组次数(或频率)之和是多少;
向上累计频率的结果表明某组上限以下的各组次数(或频率)之和占总次数(或总频数)的比重是多少。
因此,当我们所关心的是变量值比较小的现象的次数分布情况时,通常采用向上累计,以表明所关注的某一较低变量值以下的变量值出现的次数占总次数的比重。
向下累计频数(或频率)的具体做法是:由变量值高的组向变量值低的组依次累计频数(或频率)。
向下累计频数的结果表明某组下限及以上各组次数(或频率)之和是多少;
向下累计频率的结果表明某组下限及以上各组次数(或频率)之和占总次数(或总频数)的比。
次数分布。
因此,当我们所关心的是变量值比较大的现象的次数分布情况时,通常采用向下累计,以表明所关注的某一较高变量值以上的变量值出现的次数占总次数的比重。
② 累计频数(或频率)分布曲线累计频数和累计频率不仅可以用上述的表格形式表示,还可以用图形表示。累计频数(频率)的分布图分为向上累计频数(频率)分布图和向下累计频数(频率)分布图。不论是向上累计还是向下累计,均以分组变量为横轴,以累计频数(频率)为纵轴。在直角坐标系上将各组组距的上限与其相应的累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即是向上累计分布图。对于向下累计频数分布图,在直角坐标系上将各组组距下限与其相应累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即是向下累计分布图。累计频数和累计频率可以概括地反映变量取值的分布特征,向上累计分布曲线呈上升状,向下累计分布曲线呈下降状。组的次数(或频数)较少,曲线显得平缓;组的次数(或频数)较密集,曲线显得较陡峭。
(4)变量数列分布图
① 柱状图所谓柱状图,就是顺序排的柱状线段的高低来显示各组变量值出现次数的多少或频率高低的图形。柱状图通常用来显示单项分组的次数分布。
② 直方图所谓直方图,就是用顺序排列的各区间上的直方条表示变量在各区间内取值的次数或频率的图形。直方图可用来显示变量的组距分组次数分布,在直方图中,横轴表示变量,纵轴可以表示各组次数或各组频率,也可以表示各组的次数密度或频率密度。所谓次数密度是各组的次数与其组距的比率,而频率密度则是各组频率与其组距的比率,它们的计算公式分别是:
次数密度=次数/组距;
频率密度=频率/组距次数密度和频率密度分别表示各组距内单位区间上的次数和频率,是标准化的次数和频率。如果纵轴表示次数或频率,则各直方条的高就表示各组的次数或频率;如果纵轴表示次数密度或频率密度,则各直方条的面积为各组的次数或频率,所有直方条的总面积等于总次数或频率总和。对于等距分组次数分布,纵轴的上述四种表示方式均可;但对于异距分组的次数分布,由于各组组距不等,组距大,组内的次数和频率相应就多,组距小,组内的次数和频率相应就少,所以,为了避免直方图的图形失真,其纵轴只能表示次数密度或频率密度。
③ 折线图在直方图中将各直方条顶端中点用线段连接起来,并在最低组之前和最高组之后各延长半个组距,将所连折线再连接到横轴上,所形成的图形就称为次数分布折线图。折线图也可用来显示组距分组的次数分布。在直方图类似,分布折线图中的纵轴也有四种表示方法,即可表示次数、频率、次数密度或频率密度。在实际分析中,最有用的分布折线图是纵轴为频率密度的分布折线图,在此类分布折线图中,分布折线下某一区间图形的面积近似地等于变量在该区间内取值的频率,而分布折线与横轴所围成的整个图形的总面积近似等于 1。当变量的变量值很多且分组较多较细时,分布折线图就趋近于一条光滑的曲线。
次数分布的理论模型
1. 次数分布理论模型的概念和意义
随机变量的概率分布的表示方法主要有三种,即概率分布表、概率分布图和概率分布函数。其中概率分布模型的数学函数式在理论分析研究中具有重要的地位和作用。但是,由于许多概率分布模型的数学函数式十分复杂,不便于应用,所以,在实际应用中一般使用理论概率分布模型的函数表和分布图。
2. 离散型随机变量的概率分布
若随机变量的所有可能取值是有限个或可列无限多个,则这种随机变量称为离散型随机变量。要掌握一个离散型随机变量X的概率分布,不仅要知道 X 的所有可能取值,而且还要知道它取每个值的概率。下面主要介绍几种常用的离散型随机变量的概率分布:
(1)两点分布两点分布的应用条件是:若互相独立的重复试验只有“成功”和“失败”两种结果,这种试验称为贝努里试验。如掷硬币、产品质量(合格和不合格)、未出生婴儿的性别,某类电视节目(观看和未观看)等的实验都属于贝努里试验,这类实验具有以下特征:
① 实验只有两种对立的结果。假定一种是“成功”,另一种就是“失败”。
② 若成功事件的概率是p,那么失败事件的概率为 1- p或者q,即:p q 1。
③ 实验为独立试验。
(2)超几何分布
次数分布
超几何分布的应用条件是:
① 从一个含有N个个体的总体中,以不重复方式随机抽取n个个体作为样本,各次抽样(试验)并非独立;
② 总体中的全部个体分为两类,假设为“成功”与“失败”,其中“成功”类的个体数目为D个,“失败”类的个体数目为N D个;
③ 样本中从“成功”类D中抽取个体数目为k个,从“失败”类N D中抽取个体数目为n k个。若要确定n次实验中恰好出现k次成功的概率,则需采用概率模型为:
(3)二项分布二项分布的应用条件是:在n次贝努里试验的基础上,若要确定其恰好有k次成功的概率,其中随机变量X表示实验次数,则其概率模型为:
(4)泊松分布服从泊松分布的随机变量对于描述在一个特定时间或空间范围内某一事件发生的次数很有用。在通常条件下,如果满足下面两个特点,那么,某一事件发生的次数就是一个可以用泊松分布来描述的随机变量。
其一,任何两个相等的间隔期内某一事件发生次数的概率相等;
其二,在某一间隔内某一事件的发生与否和其他任何一个间隔期内该事件的发生与否相互独立。泊松分布的分布律为:
3. 连续型随机变量的概率分布
(1)连续随机变量的概念对于随机变量X的分布函数F(x),如果存在非负函数f (x),使对任意实数x 有
则称X为连续型随机变量,f (x) 为 X的概率分布密度,简称分布密度或概率密度。分布密度的图形叫做分布密度曲线。连续型随机变量的分布函数F(x)的几何意义是:F(x)在点x处的值等于在区间28 ( x]上方,分布密度曲线f (x)下方与横轴之间的面积。
(2)分布密度f (x)具有下列性质:
这一性质的几何意义是:随机变量X落在区间a b上的概率等于由直线x a , x b , x轴及密度曲线f (x)所围成的图形的面积。
④ 若 f (x) 在 x处连续,则F(x) f (x) 。
(3)几种常用的连续型随机变量的概率分布
① 均匀分布假定一个随机变量X,它表示一架从深圳飞往北京的飞机的飞行时间。再假定飞行时间 X 在180 ~ 200分钟之间取值。因为随机变量X在这个区间可以取任何值,所以X是连续型随机变量。假定从众多的实际飞行数据中,我们可以得出结论:从 180 分钟到 200 分钟任何一分钟间隔内飞行时间的概率相等。因为在每一分钟间隔内,飞行时间的概率都相等,所以称随机变量X服从均匀分布,其概率密度为:
则称随机变量X 在a b上服从均匀分布。
② 正态分布正态分布是连续型随机变量最常用的一种分布,其在实际中的应用非常广泛。例如:当将人的身高和体重、智商的量化值、学生的学习成绩以及证券的收益率等作为随机变量时,它们都将可能近似地服从正态分布。若随机变量X的概率密度为:
其中, 0为常数,则称X服从参数为 、的正态分布,记作
正态分布具有下列重要性质:
次数分布
a.f (x)关于直线x 对称;在x 处有拐点。
b.f x 在 x 处达到最大值
该处也是分布的中位数和众数。
c.当 x 时,f x0,即曲线y f x 以 x轴为渐近线。
d.当越大时,曲线越平缓;当越小时,曲线越陡峭。
Z 通常称为X 的标准化。这就是说,对于任一正态分布,我们都可以通过标准化使其变为标准正态分布。
③ 指数分布指数分布通常用来描述完成某项任务所需的时间。指数分布的概率密度函数为:
其中 0为参数。
④ 2分布假设随机变量Z1 Z2 Zn都服从标准正态分布N0 1,且相互独立,若记这些标准正态变量的平方和为X,即令
则该随机变量X服从2 (n)分布,其概率密度函数为:
2分布有一个参数n,它也称为2分布变量的自由度。2分布一般记作2 (n)。若随机变量X服从2分布,则记作X ~ 2 (n)。2分布变量的概率密度函数的图形。随着其参数即自由度n的不同而有不同的形状。
⑤ t分布设随机变量Z服从标准正态分布,随机变量X服从自由度为n 的 2分布,即有Z ~ N0 1, n X ~ 2,且二者相互独立,则随机变量
服从学生t分布。随机变量t的概率分布是由英国学者戈塞特给出的,由于戈塞特在发表此分布时使用了“学生”的笔名,所以,此分布通常也就称为学生分布。学生t分布的概率密度函数为:
t分布也有一个参数,即其分母中2变量的自由度n,也称为t分布变量的自由度。t 分布一般记作tn。若随机变量t服从自由度为n 的t分布,则记作t ~ t(n) 。t分布的概率密度函数的图形是一条以纵轴为对称轴的对称曲线,很接近标准正态分布概率密度曲线。实际上,当t分布变量的自由度n趋近于无穷时,t分布的极限分布就是标准正态分布。而当其自由度n 30时,t分布与标准正态分布的差别就已经很小,就可以用标准正态分布来代替t分布。⑥ F分布F分布是两个相互独立的2分布随机变量除以各自的自由度以后二者再相除之商所
次数分布
构成的随机变量的概率分布模型。设随机变量Um服从自由度为m 的 2分布,随机变量Vn服从自由度为n 的 2分布,即有Um ~ 2 (m) Vn ~ 2 (n),且二者相互独立,则二者分别除以各自的自由度后再相除所构成的随机变量
服从Fm n分布,其概率密度函数为: