灰色关联评估(灰色关联分析)
灰色关联评估(灰色关联分析)灰色关联分析方法弥补了采用数理统计方法作系统分析所导致的缺憾。它对样本量的多少和样本有无规律都同样适用 而且计算量小,十分方便 更不会出现量化结果与定性分析结果不符的情况。尤其是我国统计数据十分有限,而且现有数据灰度较大 再加上人为的原因,许多数据都出现几次大起大落 没有典型的分布规律。因此 采用数理统计方法往往难以奏效。(2)要求样本服从某个典型的概率分布 要求各因素数据与系统特征数据之间呈线性关系且各因素之间彼此无关,这种要求往往难以满足;(3)计算量大,一般要靠计算机帮助;(4)可能出现量化结果与定性分析结果不符的现象 导致系统的关系和规律遭到歪曲和颠倒。
一、灰色关联分析概述可以用来进行系统分析和综合评价
一般的抽象系统 如社会系统、经济系统、农业系统、生态系统、教育系统等都包含有许多种因素 多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中 哪些是主要因素,哪些是次要因素;哪些因素对系统发展影响大,哪些因素对系统发展影响小;哪些因素对系统发展起推动作用需强化发展 哪些因素对系统发展起阻碍作用需加以抑制....这些都是系统分析中人们普遍关心的问题。例如 粮食生产系统,人们希望提高粮食总产量 而影响粮食总产量的因素是多方面的 有播种面积以及水利、化肥、土壤、种子、劳力、气候、耕作技术和政策环境等。为了实现少投入多产出 并取得良好的经济效益、社会效益和生态效益 就必须进行系统分析。
数理统计中的回归分析、方差分析、主成分分析等都是用来进行系统分析的方法。这些方法都有下述不足之处:
(1)要求有大量数据 数据量少就难以找出统计规律;
(2)要求样本服从某个典型的概率分布 要求各因素数据与系统特征数据之间呈线性关系且各因素之间彼此无关,这种要求往往难以满足;
(3)计算量大,一般要靠计算机帮助;
(4)可能出现量化结果与定性分析结果不符的现象 导致系统的关系和规律遭到歪曲和颠倒。
尤其是我国统计数据十分有限,而且现有数据灰度较大 再加上人为的原因,许多数据都出现几次大起大落 没有典型的分布规律。因此 采用数理统计方法往往难以奏效。
灰色关联分析方法弥补了采用数理统计方法作系统分析所导致的缺憾。它对样本量的多少和样本有无规律都同样适用 而且计算量小,十分方便 更不会出现量化结果与定性分析结果不符的情况。
灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近 相应序列之间的关联度就越大 反之就越小。
对一个抽象的系统或现象进行分析 首先要选准反映系统行为特征的数据序列 称为找系统行为的映射量 用映射量来间接地表征系统行为。例如 用国民平均接受教育的年数来反映教育发达程度 用刑事案件的发案率来反映社会治安面貌和社会秩序 用医院挂号次数来反映国民的健康水平等。有了系统行为特征数据和相关因素的数据 即可作出各个序列的图形 从直观上进行分析。
参考:刘思峰.灰色系统理论及其应用(第五版)[M].北京:科学出版社 2010:62.
二、应用一——系统分析下面的表为某地区国内生产总值的统计数据(以百万元计),问该地区从2000年到2005年之间哪一种产业对GDP总量影响最大。
年份 |
国内生产总值 |
第一产业 |
第二产业 |
第三产业 |
2000 |
1988 |
386 |
839 |
763 |
2001 |
2061 |
408 |
846 |
808 |
2002 |
2335 |
422 |
960 |
953 |
2003 |
2750 |
482 |
1258 |
1010 |
2004 |
3356 |
511 |
1577 |
1268 |
2005 |
3806 |
561 |
1893 |
1352 |
在Excel中绘制的图表:
折线统计图
对图表进行简要分析:
- 四个季度均呈上升的趋势
- 第二产业的增幅比较明显
- 第二产业和第三产业的差距在后三年更明显
(1)母序列(又称参考数列、母指标):能够反映系统行为特征的数据序列。类似于因变量Y,此处记为
(2)子序列(又称比较数列、子指标):因此昂系统行为的因素组成的序列。类似于自变量X,此处记为
在本例中:国内生产总值就是母序列,第一、第二和第三产业为子序列(x_0)
对母序列和子序列中的每个指标进行预处理:先求出每个指标的均值,再用该指标中的每个元素除以其均值。
年份 |
x0 |
x1 |
x2 |
x3 |
2000 |
0.7320 |
0.8361 |
0.6828 |
0.7439 |
2001 |
0.7588 |
0.8838 |
0.6885 |
0.7878 |
2002 |
0.8597 |
0.9141 |
0.7812 |
0.9292 |
2003 |
1.0125 |
1.0440 |
1.0237 |
0.9847 |
2004 |
1.2356 |
1.1069 |
1.2833 |
1.2363 |
2005 |
1.4013 |
1.2152 |
1.5405 |
1.3182 |
均值 |
2716 |
461.6667 |
1228.833 |
1025.667 |
年份 |
x0 |
x1 |
x2 |
x3 |
2000 |
0.7320 |
0.8361 |
0.6828 |
0.7439 |
2001 |
0.7588 |
0.8838 |
0.6885 |
0.7878 |
2002 |
0.8597 |
0.9141 |
0.7812 |
0.9292 |
2003 |
1.0125 |
1.0440 |
1.0237 |
0.9847 |
2004 |
1.2356 |
1.1069 |
1.2833 |
1.2363 |
2005 |
1.4013 |
1.2152 |
1.5405 |
1.3182 |
均值 |
2716 |
461.6667 |
1228.833 |
1025.667 |
母序列
m个子序列:
计算两极最小差
计算两极最大差
年份 |
x0 |
|x0-x1| |
|x0-x2| |
|x0-x3| |
2000 |
0.0003 |
0.1041 |
0.0492 |
0.0119 |
2001 |
0.0003 |
0.1249 |
0.0704 |
0.0289 |
2002 |
0.0004 |
0.0544 |
0.0785 |
0.0694 |
2003 |
0.0005 |
0.0315 |
0.0112 |
0.0278 |
2004 |
0.0005 |
0.1288 |
0.0477 |
0.0006 |
2005 |
1.0000 |
0.1862 |
0.1392 |
0.0832 |
所以a=0.0006,b=0.1862
定义子序列与母序列之间的关联系数为:
其中为分辨系数,一般取0.5
计算得到关联系数为
x0 |
x1 |
x2 |
0.475145 |
0.658636 |
0.892228 |
0.429863 |
0.573289 |
0.767955 |
0.635577 |
0.546182 |
0.57663 |
0.752048 |
0.89848 |
0.775266 |
0.422378 |
0.665686 |
1 |
0.335584 |
0.403502 |
0.531718 |
定义为和的灰色关联度
其实就是求平均值
求得关联度 = [ 0.5084 0.6243 0.7573 ]
step6 通过比较三个子序列和母序列的关联度可以得到结论该地区在2000年至2005年之间的国内生产总值受到第三产业的影响最大(其灰色关联度最大)
讨论:- 什么时候用标准化回归,什么时候用灰色关联度分析?
- 当样本个数n比较大时,一般使用标准化回归,当样本个数n比较少时,才使用灰色关联度分析。
- 如果母序列中有多个指标,应该怎么分析?
- 例如,Y1和Y2是母序列,x1 x2 ... xm是子序列
- 那么我们先对Y1和x1 x2 ... xm的灰色关联度进行分析,再计算Y2和x1 x2 ... xm的灰色关联度进行分析。
(1)对指标进行正向化
(2)对正向化之后的矩阵X进行预处理,得到矩阵
求出每个指标的均值,再用该指标中的每个元素除以其均值。即
(3)将预处理后的矩阵每一行取出一个最大值构成一个虚构的母序列
(4)计算各个指标针对于这个母序列的灰色关联度
(5)计算各指标的权重:
(6)计算第j个评价对象的得分,
比如说随便给一个预处理之后的矩阵Z,在给定r1 r2 r3
那么得分就等于0.47*r1 0.65 * r2 0.89 * r3
x0 |
x1 |
x2 |
0.47 |
0.65 |
0.89 |
(7)对得分进行归一化