如何做一致性检验(七类一致性检验方法汇总)
如何做一致性检验(七类一致性检验方法汇总)1、Kappa一致性检验二、一致性检验常用方法在SPSSAU系统中,共提供7类一致性检验的相关方法,如下图所示:常见的包括Kappa一致性检验、Kendall协调系数、ICC组内相关系数等。每种方法的功能侧重和对数据格式的要求都略有不同,下面将逐一进行说明。 核酸检测鼻拭子和咽拭子检测结果的一致性; 多位评委对运动员打分结果的一致性; 甲乙两位专家对肿瘤患者的病理切片的分析评定结果是否一致等。
七类一致性检验方法汇总
一、一致性检验定义
在做数据分析时,我们经常会遇到一致性检验的问题,即判断不同的模型或者分析方法在产出结果上是否具有一致性、模型的结果与实际结果是否具有一致性等。
一致性检验的目的在于比较不同方法得到的结果是否具有一致性。
例如:
核酸检测鼻拭子和咽拭子检测结果的一致性;
多位评委对运动员打分结果的一致性;
甲乙两位专家对肿瘤患者的病理切片的分析评定结果是否一致等。
二、一致性检验常用方法
在SPSSAU系统中,共提供7类一致性检验的相关方法,如下图所示:常见的包括Kappa一致性检验、Kendall协调系数、ICC组内相关系数等。每种方法的功能侧重和对数据格式的要求都略有不同,下面将逐一进行说明。
1、Kappa一致性检验
(1)数据类型
Kappa一致性检验适用于定类数据。
使用Kappa系数衡量一致性水平。Kappa系数取值在0~1之间,通常情况下:
Kappa<0.2则说明一致性程度较差;
0.2~0.4之间说明一致性程度一般;
0.4~0.6之间说明一致性程度中等;
0.6~0.8之间说明一致性程度较强;
0.8~1.0之间说明一致性程度很强。
(2)分类
Kappa一致性检验分为简单Kappa、加权Kappa、Fleiss Kappa系数;加权Kappa又细分为线性加权Kappa和二次加权Kappa。
几类Kappa一致性检验区别说明如下:
-
简单Kappa:普通定类数据
如果研究的数据为绝对的定类数据:如阳性or阴性,此时使用简单Kappa。
例如:研究鼻拭子和咽拭子两种核酸检测方式对于核酸检测结果呈阳性or阴性的一致性程度。
-
加权Kappa:有序定类 or 考虑权重
如果研究的数据为等级式定类数据:如满意、一般、不满意,此时使用线性加权Kappa。
例如:研究两位学者对于不同作品满意度(满意、一般、不满意)的一致性程度。
(提示:如果使用加权Kappa,一般使用线性加权Kappa)
-
Fleiss Kappa:对比两项以上的一致性
如果研究的数据为对比三项以上的结果一致性,此时使用Fleiss
Kappa。
例如:研究三位专家对肿瘤患者病理切片的分析评定结果的一致性程度。
(3)数据格式
-
简单Kappa
如果说数据没有
‘ 加权 ’
,共50个样本,那么总共50行;分别表示鼻拭子或者咽拭子的检测结果;此时则没有加权数据,也不需要进行加权项放置,数据格式如下表:
-
加权Kappa
学者对于作品满意度分为满意、一般、不满意三种。因此3*3共有9种组合;单独使用一列数据表示每种组合的数量(即权重),数据结构如下表:
上表说明,学者1满意,学者2满意的作品数量为8;学者1满意,学者2一般的数量为2等等。
- Fleiss
Kappa
比较两项以上的一致性,数据格式如下表:
提示:Fleiss Kappa不支持 “ 加权项 ”
(数据均为虚构,仅做展示说明)
(4)SPSSAU展示
以线性加权Kappa为例:
从上表可以看出,Kappa一致性检验呈现出显著性(p=0.000<0.01),说明A医生与B医生检验结果具有一致性;Kappa值为0.74,介于0.6和0.8之间,说明一致性较强。
2、Kendall协调系数
Kendall协调系数,也称作Kendall和谐系数,或Kendall一致性系数。通常用于比较多组数据的一致性程度。
(1)数据类型
Kendall协调数据适用于定量数据。Kendall协调系数用于测量评分数据一致性水平。取值在0~1之间,通常情况下:Kendall协调系数
<0.2则说明一致性程度较差;0.2~0.4之间说明一致性程度一般;0.4~0.6之间说明一致性程度中等;0.6~0.8之间说明一致性程度较强;0.8~1.0之间说明一致性程度很强。
(2)数据格式
数据格式为:1个评委为1列;1个选手为1行;4个评委6个选手,因此共有4列和6行数据。
在分析时:需要将对应的6行数据放入分析框中。
如果行列转置,则对应的将数据格式选择为 ‘ 评价者(行)’。
(3)SPSSAU展示
从上表可以看出:Kendall协调系数检验呈现出显著性(p=0.003<0.05),意味着4个评价者的评价具有关联性,即说明评价具有一致性。同时Kendall协调系数为0.900,大于0.8,说明评价一致性程度很强。
3、ICC组内相关系数
ICC组内相关系数是用于研究评价一致性,评价信度,测量复测信度(重测信度)的一种研究方法。
(1)数据类型
ICC组内相关系数相比于Kappa和Kendall系数使用范围更广,适用于定量和定类数据。
ICC组内相关系数用于测量评分数据一致性水平。ICC取值在0~1之间,通常情况下:
ICC <0.2则说明一致性程度较差;
0.2~0.4之间说明一致性程度一般;
0.4~0.6之间说明一致性程度中等;
0.6~0.8之间说明一致性程度较强;
0.8~1.0之间说明一致性程度很强。
(2)ICC模型选择使用
ICC模型选择共涉及三个方面,分别为单向/双向、混合/随机、一致性/绝对一致性,分别说明如下:
① 单向/ 双向
若希望研究测量的数据是否完全相等时,此时选择单向ICC模型;
若希望研究测量数据之间的一致性程度,此时选择双向ICC模型。
② 混合/ 随机
双向混合和双向随机模型,从原理角度上进行了区分,但从算法计算的角度上看,其二者的数字计算结果完全一模一样,并没有任何区别。因而在分析时,只需描述选择过程,计算结果上双向混合和双向随机模型的结果完全一致。
③ 一致性/绝对一致性
如果研究中考虑系统误差问题,此时需要选择绝对一致性计算类型;
如果不需要考虑系统误差时,此时选择一致性计算类型。
特别说明一点在于,单向模型只有绝对一致性。
综上所述,SPSSAU共提供三类选项,汇总说明如下:
除此之外:不论是双向混合,双向随机,还是单向随机模型;均会输出单一度量或者平均度量这两个指标值。
④ 单一度量 / 平均度量
单一度量:比如多位医生通过一项测试对抑郁症患者进行抑郁程度打分。此时数据为原始数据,应该使用单一度量。
平均度量:比如多位医生通过对抑郁症患者进行多项测试,得出平均得分后,进行打分。此时的数据为多项测试平均后的得分,故应该使用平均度量。
综上所述,结合3个模型,以及计算类型和度量标准,ICC模型一共可分为六个,如下表汇总:
(3)数据格式
ICC组内相关系数的使用范围较广,但其复杂度相对较大;需要特别注意数据格式。
假设3个医生对于10个病人智商分值打分,录入后的ICC数据格式如下:
(4)SPSSAU展示
若使用的是原始数据,则使用单一度量的ICC组内相关系数0.921;
若使用的是计算后数据,则使用平均度量的ICC组内相关系数0.972。
从上表可以看出三位医生对于病人智商打分的一致性程度很强。
4、组内评分者信度rwg
在社会科学或医学相关研究中,会出现多层次(多水平)层面的跨层数据,比如研究个体是学生,但是学生隶属于学校。
(1)数据格式
例如:当前有一项关于员工团队合作能力的打分数据,共有10个员工,并且10个员工分成2个组别。其使用6个测量项进行测量(并且使用5级量表打分制)。因而共有10个员工则为10行数据,并且单独使用group来标识组别(1组和2组),6个测量项共计6列。单独还有一列为subject即员工的编号此列数据在分析时不需要使用无分析意义。最终数据格式如下:
(2)指标说明
SPSSAU提供的rwg分析方法,共提供三个指标分别是rwg值,ICC1值和ICC2值,3个指标的意义分别说明如下:RWG值:研究团队成员合作水平一致性情况如何;ICC1:研究单独每个裁判(打分者)的一致性情况;ICC2:研究几个裁判(打分者)平均一致性的信度情况。事实上rwg值、ICC1值和ICC2值的意义均在于评价一致性情况。但通俗理解来看(从站在角度上),rwg值可理解为研究
‘行’ 数据的一致性,ICC1或ICC2值研究
‘列’
数据的一致性情况。
在本案例中:
rwg值研究整体10个成员的得分一致性情况;ICC1值研究每个测量项的得分一致性情况;ICC2值研究6个测量项得分上的一致性情况。
上述三个指标的常用标准如下:
(3)SPSSAU展示
5、Bland-Altman图
Bland-Altman分析最初是由 Bland JM和 Altman DG于1986年提出的。它的基本思想是计算出两种测量结果的一致性界限(limits of agreement),并用图形的方法直观地反映这个一致性界限,得出两种测量方法是否具有一致性的结论。
(1)数据格式
例如:当前有医生使用两种方法分别做一项实验,现需要对第1种和第2种方法共两种方法的测量数据进行一致性检验;如果有分组数据,例如研究不同性别,此时只需要把性别group放入对应框中即可,group仅在图示中展示出不同的颜色进行区分,对于指标的计算并不会有任何的影响。数据结构如下图:
(2)理论说明
Bland-Altman图是一种一致性测量的可视化展示方法。适用于定量数据,其将测量数据相关计算后,进行散点展示出来,如果说散点在可信区间范围内(一般是差值的1.96个标准差范围内),那么就说明数据具有较好的一致性水平。
(3)SPSSAU展示
上图可以看出:散点基本均落在95%一致性区间(即1.96个标准差范围内),则说明一致性情况良好。
6、相关系数
当进行一致性检验的时候,还可以使用相关分析进行检验。
相关分析用于研究定量数据之间的关系情况,包括是否有关系,以及关系紧密程度等。
但是相关系数只能用于两个评价者之间的一致性检验,当评价者大于两个时,就会出现多个相关系数,变为两两之间的比较,与一致性检验的目的不符。
由于一般进行一致性检验的数据都比较少,很少满足正态性检验,故如果使用相关分析进行一致性检验,一般使用Spearman相关系数,而不使用Pearson相关系数。
7、Cronbach α系数
判断问卷的一致性可以使用克隆巴赫信度系数(Cronbach α系数)进行。一般情况下我们主要考虑量表的内在信度——项目之间是否具有较高的内在一致性。
针对定量数据。
Cronbach α系数值如果在0.8以上,则该测验或量表的信度非常好;
Cronbach α系数值在0.7以上都是可以接受;
如果在0.6以上,则该量表应进行修订,但仍不失其价值;
如果低于0.6,量表就需要重新设计题项。
三、一致性检验方法选择
上面总共介绍了七种不同的一致性检验方法;那么怎样精准地选择最适合的方法进行检验呢?
根据数据类型、数据格式、测量方法的不同,可以确定不同的检验方法进行检验,具体选择标准如下图所示: