判别分析步骤及结果解释(分类分析之判别分析)
判别分析步骤及结果解释(分类分析之判别分析)李商隐写了不少咏物诗,不仅体物工切,摹写入微,还能够通过多方面的刻画,传达出物象的内在神韵。这首《微雨》就是这样的一首作品。此诗前两句写傍晚前后微雨刚落不久的情景,后两句写夜深后微雨落久的情景。全诗摹写入微,绘形绘声,通过多方面的刻画,传达出微雨的内在神韵,其妙处在于从虚处着笔,避免从正面铺写雨的形态,只是借人的感受作侧面烘托,显得非常灵活而新鲜。【赏析】【译文】微雨初起时,只觉它像林中雾气一样浮动;逐渐地,伴随着夜幕降临,它分得了夜的丝丝凉意。那寒气仿佛透窗入户让灯火闪烁不定,离窗很远也能感觉到它的凉意;仔细听还能感觉到从空旷的院子里传来的轻微淅沥声。
序曲微雨
【唐】李商隐
初随林霭动,稍共夜凉分。
窗迥侵灯冷,庭虚近水闻。
【译文】
微雨初起时,只觉它像林中雾气一样浮动;逐渐地,伴随着夜幕降临,它分得了夜的丝丝凉意。
那寒气仿佛透窗入户让灯火闪烁不定,离窗很远也能感觉到它的凉意;仔细听还能感觉到从空旷的院子里传来的轻微淅沥声。
【赏析】
李商隐写了不少咏物诗,不仅体物工切,摹写入微,还能够通过多方面的刻画,传达出物象的内在神韵。这首《微雨》就是这样的一首作品。此诗前两句写傍晚前后微雨刚落不久的情景,后两句写夜深后微雨落久的情景。全诗摹写入微,绘形绘声,通过多方面的刻画,传达出微雨的内在神韵,其妙处在于从虚处着笔,避免从正面铺写雨的形态,只是借人的感受作侧面烘托,显得非常灵活而新鲜。
四句诗写出了从黄昏到夜晚间微雨由初起到落久的过程,先是全然不易察觉,而后渐能察觉,写得十分细腻而熨贴,但又没有一个字直接刻画到微雨本身,仅是从林霭、夜凉、灯光、水声诸物象来反映微雨带给人的各种感觉,显示了作者写景状物出神入化的艺术功底。用字也极有分寸,“初随”“稍共”“侵”“冷”“虚”“近”,处处扣住微雨的特点,一丝不苟。
这首诗体物传神,刻画入微,虚处着笔,雨中有人。朦胧,迷离,似愁绪,可意会不可言传。全诗不着一个雨字,只是借助周遭相关的事物以及人的主观感受来表现微雨的形态,却是很成功的。
注:来源于 古诗文网
判别分析简介判别分析最初由统计学家、遗传学家,现代统计学的奠基人之一R.A.Fisher于1936年应用于生物学的植物分类,那是的Fisher判别分析只是一种分类方法而没有数学上的理论依据。约在20世纪50年的出现了Bayes判别,它证明了Fisher判别的合理性,所以一般情况下,把两种判别分析合称为线性判别分析或Fisher判别分析。
判别分析的因变量是无序或有序分类变量,以此把样本划分为不同的组类,而自变量可以是任何尺度的变量,只是定性变量需要以哑变量(虚拟变量)的方式进入模型。其目的在于建立一种线性组合使得用最优化的模型来概括分类之间的差异,从而可以根据已知样本的分类情况来判断未知分类样本的归属问题,如信用风险的判别、市场细分中的客户分类、地质层的判断、模式识别的问题等。
同聚类分析一样,判别分析也是对样本个体进行分类的一种统计分析方法。但是判别分析与聚类分析最大的区别在于:
- 聚类分析可以对样本分类,也可以对变量分类;但判别分析只能对样本分类;
- 在聚类分析中,样本的类别事先是未知的,甚至样本可以分几类读不知道,只要知道样本各变量的观察值,就可以对样本进行分类;但判别分析必须事先明确样本可以分为几类,以及每个样本的类别,根据训练样本建立一个判别函数和判别准则,再对未知分类的新样本进行分类。
(1)判别分析类别
在SPSS中判别分析可提供两种常用的判别分析方法:
- 费舍尔 Fisher:以距离作为判别准则,即样本与哪个类的距离最短就归为哪一类。当对多分类总体进行判别时,仅用一个判别函数往往不能很好地区分各个总体,这时可取次大的特征根对应的特征向量构成第二判别函数,以此类推,还可以建立第三判别函数、第四判别函数。各判别函数的判别能力可以用对应的特征值占各特征值综合的百分比来表示。
- 贝叶斯 Bayes:以概率作为判别准则,即样本属于哪类的后验概率最大,就归为哪一类。贝叶斯判别分析的判别准则是将样本判入事后概率最大的类中。
(2)逐步判别分析
一个判别函数的判别能力很大程度上取决于指标的选择。和多重回归分析类似,用于判别的指标并非越多越好,如果判别函数中特异性强的指标越多,判别函数的判别能力越强。相反,如果一些对分类不重要的指标越多,只能有害无益。和逐步回归方法一样,逐步判别分析就是对用于判别的指标进行筛选,将对判别作用不大的指标排除在判别函数外,将对判别效果有重要影响的指标保留在判别函数内。指标对判别能力有无贡献可以用F检验。
(3)样本量要求
一般而言,样本量应为使用建模自变量个数的10-20倍,至少应在5倍以上
(4)判别效果评价
判别分析的核心评价指标是结果用于判别时准确度如何。在评价时,一般使用 错判率或 正判率 表示,低的错判率和高的正判率说明判别效果较好。但是判别结果还要依赖于总体本身的分离程度,不同总体的差异越大越能得到好地判别结果。判别分析正确率达到多少才可以?可以借鉴20/25%法则,即正确分类的比率应该超过随机分组正确率的20%或25%
- 总体中各组样本等概率:模型正确率 > (100% ÷ G)×1.2 或 1.25; G—组数
- 总体中各组样本不等概率:模型正确率 > (P1 P2 …. Pg)×1.2 或 1.25
以上公式汇总G为组数,乘以1.2对应超过20%的标准,如果超过了上述界值,则可以认为判别函数有价值的。
错判/正判率的计算方式:
- 自身验证:将训练样本依次代入判别函数,判断模型效果;但这种方法往往会高估判别效果,自身验证效果好,并不能说明判别外部数据的效果也好
- 外部验证:重新收集新的样本数据,查看模型效果。但缺点是很难保证两次收集的样本是同质的
- 样本二分法:采用随机函数将样本进行拆分,如此可保证验证样本与训练样本的同质性,但样本量要求较大。
- 交叉验证:将样本等分为 n 份,然后依次使用其中 n-1 份样本建立判别函数,并用判别函数对另外一份样本进行判别,进行判别效果评价,最终判别函数则通过某种方法从这 n 各函数中综合而来。
- Bootstrap法:在原始数据的范围内做有放回的抽样,样本含量为 n,原始数据中每个样本每次被抽到的概率相等,为 1/n,所得样本成为 Bootstrap样本。从该样本可以得到一个判别分析结果;重复抽取这样的样本若干次,建立一系列的判别函数,相应的每个系数都有一系列取值。采用Bootstrap方法可求出最稳健的判别函数。
(5)判别分析适用条件
在做统计分析前,一般要先了解其适用条件,判别分析也不例外。判别分析的前提和假设如下:
- 自变量和因变量间的关系符合线性嘉定
- 因变量的取值是独立的,且必须是事先就已经确定
- 自变量服从多元正态分布
- 所有自变量在各组间方差齐,协方差矩阵也想到
- 自变量间不存在多重共线性
示例:眼科研究视网膜病变严重程度和视网膜电图的关系,以便用各种指标判断糖尿病病人的时往往病变严重程度,测量了131例糖尿病病人的10个指标:年龄 age、患糖尿病期限 Time、血糖水平 Glucose、视力 Vision、视网膜电图A波峰时 AT、A波振幅 AV、B 波峰时 BT、B波振幅 BV、QP波峰时 QPT、QP波振幅 QPV。同时详细检查了这些病人的视网膜病变情况。根据统一标准判断为 轻、中、重度,变量为Group,通过逐步判别法选出作用较大的指标建立判别函数。具体数据如下:
1.打开 分析—分类—判别式
2. 参数选择与说明
(1)主页面
- 分组变量:选择分类变量,同时需要定义分类变量的范围,在 最小值 中输入分类变量的最小取值,在 最大值 中输入分类变量的最大取值。
- 自变量:选择进行判别分析的自变量
- 选择变量:用于选择对样本进行筛选的变量。选择后,则会弹出变量取值的对话框,只有筛选变量取这个值的观测记录才被用了进行判别函数。
- 变量选择方法
----一起输入自变量:建立包含所有自变量的全模型
----使用步进法:指定使用逐步判别法,根据各自变量对判别贡献的大小进行选择;选择步进法后,
(2)统计 页面
- 描述:输出统计量
--- 平均值:输出各组的均数和标准差
---单变量ANOVA:各变量在各组间的单变量方差分析表,有助于判断各变量是否对判别有作用
---博克斯M:组间协方差齐性检验
- 函数系数:
--- 费舍尔:给出贝叶斯判别系数
---未标准化:给出未标准化的判别系数
- 矩阵:输出矩阵选项,依次为组内相关阵、组内协方差阵、分组协方差阵和总协方差阵。
(3)方法 页面
- 威尔克Lambda:广义方差比最小化法
- 未解释方差:组间不可解释方差和最小化法
- 马氏距离:临近两组间马氏距离最大化法
- 最小F比:任意组间最小F值最大化法
- 拉奥:拉奥V统计量最大化法
- 条件:给定变量进入或剔除的标准
- 显示:输出每一步统计量摘要,以及输出两组间判别检验的F值和P值
(4)分类 页面
- 先验概率:如果样本是随机抽样得到的,可选择用样本估计值估计先验概率,即样本中每组例数除以总例数
a.所有组相等:默认各类先验概率相等
b.根据组大小计算:用样本估计值估计先验概率
- 显示:输出判别考核结果
a.个案结果:输出每个样本的预测组、实际组、后验概率和判别得分
b 摘要表:输出正确分类与错误分类的样本数及错判率,也可指定输出前n个样本的判别结果
c.留一分类:输出交叉验证的结果
- 图:输出判别图
a.合并图:输出所有类别的图形在同一图上;若只有一个判别函数,输出直方图
b.分组:每一类别生成一个散点图
c.领域图:用于直接分类,根据判别函数得分所做;把平面划分成与分类个数相同的几个区域。
- 使用协方差矩阵:选择计算所用的协方差矩阵
a.组内:组内协方差矩阵
b.分组:各组的协方差矩阵
(5)保存 页面:创建新变量,保存聚类结果
- 预测组成员:创建新变量,表示用判别函数判别的各样本所属类别
- 判别得分:创建新变量,表示各样本的判别得分,两类判别时得分高者为所属类别,多类判别时不如概率值直观
- 组成员概率:创建新变量,表示各观察样本被判入每一类的概率。最大概率值对应的类别为判定所属类别
3.结果输出与解释
(1)个案处理摘要
- 显示样本数、缺失值数,及所占百分比。
(2)各组统计量:给出各组的平均值和标准差
(3)选择变量
- 最终选入四个变量:vision、at、age、bv ,建立判别式函数。
(4)判别函数特征值
- 特征值:显示第1个判别函数解释了所有变异的77.8%;第2个判别函数解释了22.2%。
- 威尔克检验各判别函数有无统计学意义,显著性p <0.05,说明判别函数显著成立
(4)判别函数
- 标准化判别函数:
Y1=0.524*age 0.908*vision-0.525*at 0.316*bv
Y2=-0.795*age 0.313*vision 0.726*at 0.479*bv
标准化典型判别函数应用时需要将原始变量进行标准化,使用起来不太方便,因此常用未标准化典型判别函数。
- 非标准化判别函数:
Y1=0.078 0.051*age 4.238*vision-0.554*at 0.003*bv
Y2=-0.077*age 1.463*vision 0.765*at 0.005*bv-9.704
未标准化典型判别函数的应用是将患者4项x 指标分别代入方程,得到Y1和Y2得分,然后根据得分,在区域图中,确定该患者的分类。即未标准化典型判别函数需要结合区域图进行结果解释。
(5)模型结构矩阵
- 即判别得分和自变量之间的相关系数,在表格中,用 * 标识出的每个自变量与每组判别得分中相关系数最大的一个,这类似于之后讲到的主成分分析中的成分矩阵。
- 可看出,vision主要与第一判别函数相关,可解释第一判别函数较多的新型。
(6)质心与图形展示
- 组质心处的函数:各类别中心在平面上坐标,如类别1:(1.288 0.354);根据判别函数计算出每个样本的平面坐标后,计算与各类别重心的距离,可判别归属
- 图形展示
(7)Fisher判别函数:
- 在使用上面的判别函数时(标准化或未标准化),对每个样本先要计算其平面指标,然后比较它与各类别重心的距离,再做分类。
- 相比而言,费舍尔判别函数要简单许多,直接用它计算每个样本属于各类的得分,并把此样本归入得分最高的类别即可。
- 依据下表中系数,得到相应函数
Y1=0.374*age 60.36*vision 17.178*at 0.057*bv-171.044
Y2=0.383*age 49.774*vision 17.184*at 0.043*bv-157.187
Y3=0.105*age 43.967*vision 20.060*at 0.047*bv-182.680
(8)分类结果:
- 总的错判率为11/131=8.4%;
- 交叉验证的结果,错判率为14/131=10.69%
(9)数据结果
- 总的错判率为11/131=8.4%;
4.语法
******************* 判别分析 ******************.
DISCRIMINANT
/GROUPS=group(1 3)
/VARIABLES=age time glucose vision at av bt bv qpt qpv
/ANALYSIS ALL
/SAVE=CLASS SCORES PROBS
/METHOD=WILKS
/FIN=3.84
/FOUT=2.71
/PRIORS EQUAL
/HISTORY
/STATISTICS=COEFF RAW TABLE CROSSVALID
/PLOT=COMBINED
/CLASSIFY=NONMISSING POOLED.