快捷搜索:  汽车  科技

minitab如何判定数据是否稳定(显示描述性统计量)

minitab如何判定数据是否稳定(显示描述性统计量)统计量(Statistics)共有24个。三、单击【统计量(Statistics)】按钮,打开统计量(Statistics)对话框,见图2。图1 显示描述性统计量(Display DescriptiveStatistics)主对话框【变量(Variables)】可选择1个或以上的数值变量,本例为“C5(家庭收入(千元))”。【按变量分组(可选)(By variables(optional))】,可以不选择或选择一个或以上的分组变量,当选择2个及以上的变量时,将根据被选变量分层。分组变量可以是数字、文本或日期/时间变量,本例为“C3(文化程度(文本))”。

显示描述性统计量(Display Descriptive Statistics)功能可以计算一个变量或多个变量的描述性统计量,或按分组变量计算一个变量或多个变量的描述性统计量,并可绘制相应的4种图形。

〖例1〗现有某银行850位过去和潜在客户财务和人口统计信息,试根据文化程度计算家庭收入(千元)的描述性统计量,并绘制相应的图形。工作表列分别为“C1(年龄)”、“C2(文化程度(数值))”、“C3(文化程度(文本))”、“C4(工龄)”和“C5(家庭收入(千元))”。

一、打开数据文件“收入.MTW”。

二、单击【统计(Stat)】→【基本统计量(Basic Statistics)】→【显示描述性统计量(Display Descriptive Statistics)】菜单,打开显示描述性统计量(Display Descriptive Statistics)主对话框,见图1。

minitab如何判定数据是否稳定(显示描述性统计量)(1)

图1 显示描述性统计量(Display DescriptiveStatistics)主对话框

【变量(Variables)】可选择1个或以上的数值变量,本例为“C5(家庭收入(千元))”。

【按变量分组(可选)(By variables(optional))】,可以不选择或选择一个或以上的分组变量,当选择2个及以上的变量时,将根据被选变量分层。分组变量可以是数字、文本或日期/时间变量,本例为“C3(文化程度(文本))”。

三、单击【统计量(Statistics)】按钮,打开统计量(Statistics)对话框,见图2。

统计量(Statistics)共有24个。

□【均值(Mean)】,又称平均值或算术平均值(Arithmetic mean),为总和除以个案数之商,常用于描述一组同质观测值的集中趋势。适用于描述服从对称分布变量的平均水平,由于均值位于分布的中心,能反映全部观测值的平均水平,特别是对于服从正态分布或近似正态分布的变量。由于均值是包括极值在内的所有资料的平均水平,因此它不能代表偏态分布资料的集中趋势。大多数统计分析采用均值作为标准参照点(standard reference point),常用μ表示总体均值(population mean),

minitab如何判定数据是否稳定(显示描述性统计量)(2)

表示样本均值(sample mean)。

□【均值标准误(SE ofmean)】,均值标准误(Standard error of the mean)用于测量样本均值估计估计总体均值精确程度及计算总体均值的置信区间(confidence interval,CI)。均值SE小,表示对μ的估计越精确。标准差越大,均值SE越大。样本量(n)越大,均值SE越小。均值SE用于估计样本之间的变异性(variability),而标准差则反映单个样本内的变异性。将观测均值与假设值进行比较,如果两者的差值与其SE的比值的绝对值大于2,可粗略断定两个值不同。

□【标准差(Standard deviation)】,简写为StDev,为方差的正平方根(positive square root),描述一个变量的所有观测值与均值的平均离散程度,标准差越大意味着资料的离散程度越大,或者说变量的变异程度越大。在服从正态分布(normal distribution)的资料中,大约68%的观测值在

minitab如何判定数据是否稳定(显示描述性统计量)(3)

范围内,95%的个案在

minitab如何判定数据是否稳定(显示描述性统计量)(4)

范围内,99.7%的观测值落于

minitab如何判定数据是否稳定(显示描述性统计量)(5)

之内。由于标准差的量纲和原变量的量纲相同,因此标准差比方差更方便和直观。常用σ表示总体标准差(standard deviation of a population),s表示样本标准差(standard deviation of a sample)。

□【方差(Variance,σ2)】,又称均方差,描述一个变量的所有观测值与总体均值的平均离散程度。同类资料比较时,方差越大意味着资料的离散程度越大,或者说变量的变异程度越大。方差的量纲是原变量量纲的平方,容易使人混淆,因此通常以标准差代替方差。方差和标准差都适用于对称分布的变量,特别对服从正态分布或者近似正态分布的变量。

□【变异系数(Coefficient of variation,COV)】,用CoefVar表示,为相对变异性(relative variability)的度量,等于标准差除以均值的商再乘以100。COV越大,表示离散程度越大。COV为无量纲数值(dimensionless number),因此可用于比较均值明显不同的总体的离散程度。

□【第一个四分位数(First quartile,第1四分位数)】,用Q1表示,25%的数据小于等于此值。四分位数是将样本分成四个相等部分的值。包括:第1四分位数(也称下四分位数,Q1)、第2四分位数(即中位数,Q2)与第3四分位数(也称上四分位数,Q3)。利用四分位数,可以快速评估数据的展开和集中趋势。

□【中位数(Median)】,即Q2,是指将原始观测值按大小排列后,位次居中的数值。理论上,大于和小于该值的个案数各占一半。由于中位数对极端值不敏感,所以当数据中有极端值或含不确定值的资料,数据呈偏态分布或分布类型未知时,均宜采用中位数来描述集中趋势。当数据呈对称分布时,均值和中位数接近;当数据呈右偏态分布时,均值大于中位数;当数据呈左偏态分布时,均值小于中位数。因此也可以根据中位数和均值的差别大小,粗略判断数据的分布类型。

□【第三个四分位数(Third quartile)】,用Q3表示,75% 的数据小于等于此值。

□【四分位间距(Interquartile range,四分位数间距)】,用IQR表示,为Q3与Q1之间的距离(Q3-Q1),IQR跨越数据中间部分(即50%),同类资料比较,IQR越大意味着数据间变异越大。IQR可用于各种分布的资料,特别是服从偏斜分布的资料,常把中位数和IQR结合起来描述变量的平均水平和变异程度。与极差相比,IQR较稳定,受两端极大或极小数据的影响小,但仍未考虑数据中每个观测值的离散程度。

□【众数(Mode)】,在样本中出现次数最多的数值。众数可以与均值和中位数一起,作为数据分布的总体特性描述。如果出现次数最多的值不止一个,则每个值都是众数将显示最小的4个众数及其频率。找出众数有助于了解数据的分布,如果有两个以上的众数,则分布为多峰分布(multimodal distribution)。

□【截尾均值 (Trimmed mean)】,用TrMean表示,为剔除一定比例的最(高和低)极值(extreme value)后的均值。由于截尾均值减小了极值对均值的影响,因此更适合描述具有离群值(outlier)数据的集中趋势。Minitab将计算5%截尾均值,剔除最高的5%数值和最低5%数值后的均值。

□【总和(Sum)】,所有有效值的合计或总计。

□【最小值(Minimum)】,即最低值。

□【最大值(Maximum)】,即最高值。

□【极差(Range)】,又称全距,为数值变量最大值与最小值之差。样本量接近的同类资料比较时,极差越大意味着资料越离散,或者说变异越大。样本含量相差悬殊时,不宜通过比较极差去判断变异大小。即使样本含量相同时,极差也往往不稳定。

□【平方和(Sum of squares)】,每个观测值的平方的总和。

□【偏度(Skewness)】,用于描述分布的不对称性。理论上总体偏度为0时,分布是对称;取正值时,为正(右)偏峰,其分布有较长的右尾。取负值时,为负(左)偏峰,其分布有较长的左尾。偏度与其标准误比值的绝对值大于2时,表明分布偏离对称。

□【峰度(Kurtosis)】,可反映集中位置周围观测值聚集的程度。理论上正态分布的峰度为0;取正值时,其分布较正态分布的峰尖峭;取负值时,其分布较正态分布的峰平阔。

□【均方递差(MSSD)】,均方递差(Mean of Successive Squared Differences)为方差估计值,对连续观测值之间的平方差求和后除以2。将估计总体方差与均方递差进行比较,可检验观测值序列是否是随机的。在质量控制中,当子组大小为1时作为方差估计值。如需要作为标准差的估计值,则须计算MSSD的平方根。

□【N缺失(N missing,缺失值数)】,用N*表示,为包含星号 (*) 或缺失值符号的单元格数。

□【N合计(N total,总例数)】,用CumN表示,为上述两个统计量之和或列中的观测值总数。

□【累积N(Cumulative N,累积例数)】,为连续分类中观测值的累积例数。

□【百分比(Percent)】,分类百分比,如果未选择【按变量分组(可选)(By variables(optional))】,则显示100%。

□【累积百分比(Cumulative percent)】,用CumPct表示,显示累积百分比。

■【选择统计量(Check statistics)】,可选择【默认(Default)】、【无(None)】或【全部(All)】,本例选择【全部(All)】。

minitab如何判定数据是否稳定(显示描述性统计量)(6)

图2 统计量(Statistics)对话框

四、单击【确定】→【图形(Graphs)】按钮,打开图形(Graphs)对话框,见图3。

共可绘制4种图形:数据直方图(Histogramof data)、带正态曲线的数据直方图(Histogram of data with normal curve)、单值图(Individual value plot)和数据箱线图(Boxplot of data)。

minitab如何判定数据是否稳定(显示描述性统计量)(7)

图3 图形(Graphs)对话框

五、主要结果与解释

显示描述性统计量功能共可计算24种统计量,对收集资料进行“探索性”分析,了解数据分布状态:集中趋势、离散趋势、极值(或离群值)的情况,初步估计各分组之间各统计量的差别,结合图形可更直观地了解资料分布特点。对资料进行“探索性”分析后可指导我们如何对数据进行整理(数据清洗、数据变换、数据精简等)个明确数据分析的目标,以便选择合适的统计方法和统计图形。以高中以下组为例,家庭收入的均值为40.84千元,中位数为31.00千元,其均值远大与中位数,表明高中组的家庭收入数据呈右偏分布,偏度为3.98大于的0,结合直方图、箱线图同样得出该数据成右偏分布的结论,因此适合用中位数来描述家庭收入的集中趋势;标准差、方差及四分位间距的值均随着文化程度的增高而增高,变异系数也有类似的趋势,表明文化程度越高,家庭收入的变异越大。由于统计量较多,在此就不进行详细分析了,读者可结合图2的指标解释对上述数据进行更详细分析。

minitab如何判定数据是否稳定(显示描述性统计量)(8)

minitab如何判定数据是否稳定(显示描述性统计量)(9)

图3 按文化程度分组的家庭收入带正态曲线直方图

minitab如何判定数据是否稳定(显示描述性统计量)(10)

图4 按文化程度分组的家庭收入箱线图

【作者介绍】李志辉,长期从事各类统计软件应用研究,主编或参编SPSS、MINITAB、STATISTICA多个统计软件教材共8本。代表作:电子工业出版社《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》(2015年)。

更多的学习资料请关注微信订阅号“一起学统计工具"(原名:一起学SPSS)后。

猜您喜欢: