两变量相关分析:入行数据分析要知道什么是双变量的相关分析
两变量相关分析:入行数据分析要知道什么是双变量的相关分析最终计算结果 : 依托相关系数公式可以计算出来化妆品费和服装置办花费的一个关系。相关系数作用:举例来说,以女性化妆品和服装消费的数据。基于散点图表示为
双变量相关是统计学中广泛使用的术语。事实上,它于 1561 年进入英语,比大多数现代统计测试发现早了 200 年。它来源于拉丁词correlation,表示关系。相关性通常描述两种或多种现象同时发生并因此相互关联的效果。许多学术问题和理论研究这些关系。暴露在阳光下的时间和强度是否与患皮肤癌的可能性有关?人们越满意,就越有可能重复参观博物馆吗?老年人赚的钱更多吗?工资与通货膨胀有关吗?油价上涨会增加运输成本吗?然而,强调相关性并不意味着因果关系是非常重要的。
通过本文学习到:
- 相关系数为表示数值数据与数值数据之间关联程度的指标。
- 相关比表示数值数据和分类数据关联程度的指标。
- 克莱姆相关系数表示分类数据和分类数据关联程度的指标。
- 相关系数、相关比和克莱姆相关系数特征为。
Y和X的相关系数 = Y和X的协方差/Y和X的协方差标准差。
Y和X的相关系数的范围: −1≤Cor(x y)≤1 。
相关系数作用:
- 在描述两个变量的相关性上,协方差的作用有限。
- 相关系数比协方差更好,因为相关系数剔除了量纲的影响。
- 相关系数 > 0 ,变量正相关;
- 相关系数 < 0 ,变量负相关;
- 相关系数 = 0 ,变量不相关;
- 可以看出,描述两个变量的相关性时,相关系数的作用更全面。
举例来说,以女性化妆品和服装消费的数据。
基于散点图表示为
依托相关系数公式可以计算出来化妆品费和服装置办花费的一个关系。
最终计算结果 :
用Python实现也非常简单
import pandas as pd
import pylab as plt
# 化妆品费
list_1 = [3000 5000 12000 2000 7000 15000 5000 6000 8000 10000]
# 置装费
list_2 = [7000 8000 25000 5000 12000 30000 10000 15000 20000 18000]
g_s_m = pd.Series(list_1) #利用Series将列表转换成新的、pandas可处理的数据
g_a_d = pd.Series(list_2)
corr_gust = round(g_s_m.corr(g_a_d) 4) #计算标准差,round(a 4)是保留a的前四位小数
print('corr_gust :' corr_gust)
#最后画一下两列表散点图,直观感受下,结合相关系数揣摩揣摩
plt.scatter(all_gust_spd_mean_list all_gust_agl_dev_list)
plt.title('corr_gust :' str(corr_gust) fontproperties='SimHei') #给图写上title
plt.show()
对于类别变量可能就会使用到相关比。
相关比的性质:
- 相关比的数值愈大,表示两变量间的非直线相关愈密切。
- 相关比必大于或至少等于由同一资料所计算的相关系数的绝对值。
举例来说女性的年龄和喜欢服装品牌的相关比
将数据整理一下,并构建散点图
通过下面的公式进行计算:
- 计算组内值与均值的平方和,即 Termes组 = (23-26)的平方 (26-26)的平方 (27-26)的平方 (28-26)的平方 = 14,以此类推Chanellio组 = 50 ,Burpurry组 = 160。
- 计算各个组内变异和 14 50 160 = 224
- 计算每组的个数 X (组内平均值 - 整理平均值)的平方和,即 4 * (26-25)的平方 5 * (29-25)的平方 6 * (21-25)的平方 = 180。
- 相关比为 级间变异 / (组内变异 级间变异) = 180 / (180 224) = 0.4455
克莱姆V(Cramer’s V),又称为克莱姆相关系数、克莱姆关联系数、独立系数等,是双变量相关分析的一种方法,专门用于衡量分类数据与分类数据之间相关程度。该系数取值范围为0到1,0表示两个变量无关,1表示完全相关。
这里要计算一个卡方统计量,结合数据的个数以及列联表的行列就可以计算了。
举例来说性别与表白方式的一个内容的计算。
通过观测数据计算期望值
在这里插入图片描述
假设性别和希望的表白方式不相关,则实际数值和期望值应该相等或近似相等,通过实际的计算验证一下。 男性表白当面的实际数字是74,实际的结果值是 152 * 127 / 300 = 64.34 有较大的差异。因此表明性别与表白方式的关联程度越强。
通过计算对红框内的数值计算结果是,且红框内是差异较大的部分。
因此可以通过克莱姆相关系数进行计算,首先要进行卡方的计算。即每笔数值 = (观测频数 - 期望频数)的平方 / 期望频数 的累计和。
最终结果 = 8.0091
最终计算公式为
结论为性别和表白方式相关性非常弱。
三者关系
名称 |
最小值 |
最大值 |
完全不相关 |
相关性最强 |
相关系数 |
-1 |
1 |
0 |
-1或1 |
相关比 |
0 |
1 |
0 |
1 |
克莱姆系数 |
0 |
1 |
0 |
1 |