模糊数据与统计分析(非连续性数据的两种处理方式)
模糊数据与统计分析(非连续性数据的两种处理方式)上述这个例子是“单变量”,也就是“简单描述数据”。之所以把它叫作“简单描述数据”,是因为我们只是对单个变量的特征进行了描述。“身高”“体重”“性别”或者“专项”,这些都是单个变量。我们每一个表格或者说每一个“均值”加减“标准差”,都只是反映着单个变量的特征。显然,只是做简单的“描述数据”是不够的。比如说,我们想知道广东地区所有的足球辅修班,或师范类大学的辅修班,或某个体育院校的辅修班学生的专项以及性别构成,或者他们的平均身高、体重怎么样。这没问题,我们可以这样去做。但如果我们想做一个研究,那显然不够。因为我们只是描述了他们的平均身高、体重怎么样,但这些却没有足够的科学研究价值。也就是说,比如整个班级共有42个人,如果我们做饼状图,并且这个选择是“单选题”的话,那么13 12 17=42。但如果是多选题的话,由于有的人是双专项,就可能出现这种情况:足球专项的人可能有23个,篮球专项的人可能有
本文根据刘鸿优的讲座视频整理而成,文稿未经专家本人审阅。
作者简介:
刘鸿优,华南师范大学体育科学学院教授/博士研究生导师,“爱思唯尔(Elsevier)中国高被引学者(体育学2020/2021)”,中国足球协会超级联赛技术调研组成员,广东省和华南师范大学高层次人才计划入选者。博士毕业于西班牙马德里理工大学身体锻炼与体育科学学院,主要研究方向为足球比赛表现与训练监控、运动表现分析。近年来,公开发表国际期刊论文30余篇、中文核心期刊论文20余篇,论文被引用1300余次(谷歌学术数据)。主持国家社会科学基金、广东省科技厅/教育厅课题、广州市社会科学基金等国家/省/市厅级课题多项。目前担任《Journal of Sports Sciences》等20余份国际期刊,《中国体育科技》等多份国内期刊特邀审稿人、评委。曾任波兰足球乙级联赛、西班牙足球丙级联赛俱乐部助理教练、表现分析师。
在了解了“连续型数据”的统计方式(请见《“连续型数据”的描述性统计》)之后,本节,我们继续与大家分享“非连续性数据”统计中的相关问题。
一、“单变量数据”做“简单描述”
对于“非连续性变量”,毫无疑问,我们只能做频数统计和比率统计,不可能计算“平均值”和“标准差”,也不可能计算“中位数”和“分位数”。比如“性别”这个变量,男性与女性的“频数”分别为23和19,“比率”分别为54.8和45.2。又如,“专项”这个变量,篮球、排球和足球的“频数”分别为12、13、17,“比率”分别为28.6、31和40.5。
“离散型变量”或“非连续性变量”的“描述数据”,可以用饼状图或柱状图来展示。柱状图可以做“频数”,也可以做百分比的分布。如果是“单选题”,我们可以做饼状图。但如果是“多选题”,那千万不要做饼状图,而一定要做柱状图。因为,有的个体可能既是排球专项又是篮球专项,有的人选择了篮球和足球的双专项。如果我们用饼状图去做,就会发现最后加起来不等于百分百。
也就是说,比如整个班级共有42个人,如果我们做饼状图,并且这个选择是“单选题”的话,那么13 12 17=42。但如果是多选题的话,由于有的人是双专项,就可能出现这种情况:足球专项的人可能有23个,篮球专项的人可能有24个,或者说15个,排球专项的人可能有16个。我们最后将数据相加,所得结果可能是五十多个。这样一来,我们做饼状图就很不好。所以,“多选题”一定要做柱状图。
上述这个例子是“单变量”,也就是“简单描述数据”。之所以把它叫作“简单描述数据”,是因为我们只是对单个变量的特征进行了描述。“身高”“体重”“性别”或者“专项”,这些都是单个变量。我们每一个表格或者说每一个“均值”加减“标准差”,都只是反映着单个变量的特征。显然,只是做简单的“描述数据”是不够的。比如说,我们想知道广东地区所有的足球辅修班,或师范类大学的辅修班,或某个体育院校的辅修班学生的专项以及性别构成,或者他们的平均身高、体重怎么样。这没问题,我们可以这样去做。但如果我们想做一个研究,那显然不够。因为我们只是描述了他们的平均身高、体重怎么样,但这些却没有足够的科学研究价值。
二、“多变量数据”探讨“效果”
如果我们要得出足够的科学研究价值,就一定要加入对“效果”的探讨。所谓“效果”的探讨,就是对因果关系的探讨。这其中就涉及到“自变量”和“因变量”之间的相互关系。这才进入了科学研究的层面。之前的“描述”只是给人展示一定的特征,用这些数据去做报告没有问题。但如果我们要揭示这些数据背后特定的研究意义或科学意义的话,那一定要通过“效果”来揭示所谓的“效果”,即“谁”对“谁”造成了什么影响,或者“谁”跟“谁”有什么相互的关系,这就叫“效果”。所谓的“效果数据”一定是“多变量数据”。平时的授课中,我通常只讲两个变量,一个是“自变量”,一个是“因变量”。不讲多个“自变量”与多个“因变量”的问题,因为那会涉及到非常复杂的模型、“主效应”“随机效应”“固定效应”“协同变量”“调节变量”以及“修饰变量”等等。因此,这里我们只讲两个变量——“自变量”与“因变量”之间的相互关系。
我们知道,变量就分为“连续性变量”与“离散型变量”(或“非连续性变量”)这两种。“自变量”可以是“连续型变量”,也可以是“非连续性变量”。“因变量”同样如此。当我们要探讨“自变量”和“因变量”之间的关系的时候,就会涉及到下表(表1)中的内容,它展示了我们选择统计学方法或者选择“效果数据”的依据。
表1
我们来看“自变量”是“非连续性变量”,而“因变量”是“连续型变量”这一情况。所谓“因变量”是“连续型变量”,举个例子,我们想探讨“不同性别的人身高是否有差别”的时候,“性别”这个自变量就是“非连续性变量”,而“身高”这个因变量就是“连续型变量”。在探讨这些差别的时候,就是要用到“均值差异”。如果“自变量”和“因变量”都是“连续型变量”,比如我们想知道身高和体重之间的相互关系的时候,“自变量”(身高)与“因变量”(体重)都是“连续型变量”,如果我们探讨两个“连续型变量”之间的相互效果,这个时候就会涉及到“斜率”和“相关”。
一旦我们的“因变量”是“非连续性变量”(如性别),那么不管“自变量”是“非连续性变量”还是“连续型变量”,我们都只能去探讨“比率差异”或者“比值比”“比率”“风险比”和“即时风险比”。比如,我们想知道男生和女生会不会选择不同的专项,他们的专项分布会不会有差别。或者反过来说,对于不同的专项,男生和女生的性别分布会不会有差别,这就是“比率差异”。不同专项的性别分布或者不同性别的专项分布有没有差别,其实是同一个概念。这就涉及到“自变量”和“因变量”都是“非典型变量”的情况,这个时候我们就要计算“比率差异”或者说“比率比”等。
如果“自变量”是“连续型变量”,比如,是否因为身高越高,导致选择篮球的概率越高?这个时候,身高作为“自变量”,“连续型变量”(专项)作为“因变量”,就变成了“非典型变量”。所以,这时也要去探讨“比率比”“比值比”“比率差异”等,也即是回答了刚才的问题:身高越高的人越有可能选择篮球吗?这就是“连续型变量”作为“自变量”,“非连续性变量”作为“因变量”要探讨的效果。
请尊重原创,未经许可,拒绝转载