excel主成分分析法,Excel数据分析主成分分析PCA
excel主成分分析法,Excel数据分析主成分分析PCA5) 特征向量也是用规划求解做的,方法请看昨天那篇4) 这时,我们并不是3个特征值都需要,具体留几个要看矩阵(A-LE)的秩,矩阵求秩的做法可以参考大前天那篇,这里我直接说明结果,这个矩阵的秩为2,也就是说,我们需要在3个特征值里用到2个,方向是从大到小,也就是先算L3的特征向量,然后再算L2的3) 求特征值(参考前天那篇)通过试算画出的曲线可以看到有3个特征值,3个值的范围如下:用规划求解算出来:
准备了N久,终于进正题了,今天我不打算写太多废话,纯粹列出操作步骤把这个过程理顺,其中对计算步骤有问题的都请参考之前几天的内容
首先,随便举个例子:
1) 去中心化,一般其实每列减平均值就行,我这里为了后面特征值好算点,直接做成了Z标准化(减平均值后再除以标准差)
2) 做出协方差矩阵——Excel自带的数据分析工具格式上省掉了一般重复值,可以先用自带的工具算好再转置粘贴一下把整个矩阵补齐
3) 求特征值(参考前天那篇)
通过试算画出的曲线可以看到有3个特征值,3个值的范围如下:
用规划求解算出来:
4) 这时,我们并不是3个特征值都需要,具体留几个要看矩阵(A-LE)的秩,矩阵求秩的做法可以参考大前天那篇,这里我直接说明结果,这个矩阵的秩为2,也就是说,我们需要在3个特征值里用到2个,方向是从大到小,也就是先算L3的特征向量,然后再算L2的
5) 特征向量也是用规划求解做的,方法请看昨天那篇
6) 然后,把做过Z标准化的3列数据和2*3的特征向量以矩阵方式相乘,公式MMULT
=MMULT(Z标准化数据 2列特征向量)
得到结果如下:
操作步骤到这里就差不多了
那用处呢,这玩意儿转换了一大圈有什么用?我个人觉得这事儿用文字不太好描述,还是看图清楚一点
用Excel实在画不好3维的图形,所以以下Z标准化后的3列数据的散点图是借助R软件画的
这面看起来有点散,我换了个方向多画了一张
发觉没,换到这个方向看,所有的散点看起来差不多在一个方向上,由于这是个立体图,所以它们应该算是在这个方向几乎集中在一个平面上
而如果用主成分分析做出来的两列新数据来画平面图的话,效果是这样的
找到这个形状在哪儿了么?我来给点提示:(对照下第一个3维图)
换句话说,主成分分析在这里的主要用处是把立体变成了一个平面,所以叫降维
Tip:由于特征向量是乘以任意非0倍数都成立的,所以如果不确定取哪个特解比较合适,可以先做一个结果把图画出来,对比下源数据再乘个比例缩放调整下,毕竟咱这不是专业统计工具,边做边调整还是有必要的
---------------------------------------End--------------------------------------------