慢性阻塞性肺疾病国内外研究现状(人工智能和机器学习在慢性阻塞性肺疾病诊疗中的应用)
慢性阻塞性肺疾病国内外研究现状(人工智能和机器学习在慢性阻塞性肺疾病诊疗中的应用)为了减少慢阻肺早期诊断中对于肺功能检测的依赖,ML算法也被用于分析来自人体支气管上皮细胞提取物的转录资料。这将有助于确定慢阻肺发病过程中15种基因的异常表达。其中10种基因以前没有报道过可作为慢阻肺的生物标志物。其后应用随机森林算法对于这些不同基因组进行分析,以区别非吸烟者和吸烟者及慢阻肺患者[5]。尽管每个亚组具有明显的诊断准确率(65%),但是还需要进一步研究,以改善这种模型用以区分慢阻肺患者和单纯吸烟者的性能。鉴于慢阻肺患者诊断缺少特异性生物标志物,今后还需要结合另外两种血液生物标志物——N乙酰糖蛋白和脂蛋白,通过比较54例慢阻肺患者与74名正常人。这种模式诊断准确率可达84.62%,AUC为0.90[6]。这提示联合应用ML算法和生物标志物有助于慢阻肺的诊断,并可减少对于肺功能检测的依赖,然而这些尚需要采用大样本研究进一步验证其效力。慢阻肺患者缺乏特异性症状,其临床诊断主要是根据肺
作者:何权瀛
单位:北京大学人民医院呼吸与危重症医学科
引用本文:何权瀛. 人工智能和机器学习在慢性阻塞性肺疾病诊疗中的应用 [J] . 中华结核和呼吸杂志 2022 45(10) : 1055-1060. DOI: 10.3760/cma.j.112147-20220425-00350.
摘要
本文简述了近年来国外人工智能在慢性阻塞性肺疾病诊治和管理中的应用情况,包括慢阻肺的筛查和诊断、疾病分级和病情评估、疾病管理和监测及治疗等方面,最后指出未来应用的前景。
近年来人工智能(artificial intelligence AI)领域中的机器学习(machine learning ML),尤其是深度学习在呼吸病临床医学应用中的进展迅速,包括慢阻肺、支气管哮喘、肺癌和肺间质病等方面[1 2]。本文将进一步介绍AI在慢阻肺的筛查和诊断、分级和评估、管理和监测以及治疗中的应用,现分述如下。
一、AI/ML用于慢阻肺的筛查和诊断
慢阻肺患者缺乏特异性症状,其临床诊断主要是根据肺功能检测结果,因而,其准确性高度依赖于受试者的配合情况,这就可以解释临床实践中常见的慢阻肺诊断不足和过度诊断问题。应对这种挑战,几种AI/ML技术应用于临床,产生一种既经济又安全有效的慢阻肺诊断方法,比如依据下述步骤构建AI诊断专家系统:询问表格、WebFlex密码、专家专门小组控制效力及临床效力。询问表格包括人口学资料、症状、环境和诊断实验。在临床效力方面,专家系统在241例慢阻肺患者中总体准确率达到97.5%[3]。目前慢阻肺存在诊断不足(大约70%)和过度诊断(30%~62%)问题。来自欧洲16家医院的120名肺病专家和AI软件系统对具备完整的肺功能检测资料和有限的临床信息,包括吸烟史、咳嗽、咳痰和呼吸困难的50例患者进行评估。这些患者包括阻塞性和限制性肺部疾病、肺血管疾病和健康对照组。相关诊断标准系由3名肺科专家根据肺功能试验、完整的病史加上任何一项辅助检查结果制定出来的。尽管专家能够对肺功能检测结果进行正确的分类(阻塞性、限制性或正常),其正确率为74.4%±5.9%,但肺病专家的诊断精确度(precision)仅为44.6%±8.7%,而根据AI软件对于肺功能检测结果类型判断的正确率为100%,诊断率为82%(P<0.000 1)。这一项研究中对于8种情况的判断,AI算法的敏感性和阳性率、预测效力均优于肺病专家。AI系统可以对现有的医学资料、患者的临床数据和诊断案例等大数据进行学习,并将这些资料抽取成高维特征数据库。当诊断新患者时,首先提取典型患者临床资料的特征,然后将该特征与数据库进行比对,查找到与该患者特征相似的案例被用作诊断参考。作者得出结论认为,由于肺病专家对于肺功能检测结果的解释可能会引起错误,而以AI为基础的软件系统可以提供更准确的解释,同样可以作为一种有效的决策支持工具,以改善临床实践水平。然而应当注意到,临床医生的真实临床表现水平可能会被低估,因为他们接受的临床信息较少。如果不考虑这一点,本项研究表明AI对于呼吸病学具有一种潜在的作用并且远远超出图像分析范畴[4]。为了进一步验证专家系统对于慢阻肺诊断的价值 Braido等[3]设计了一套问卷和应用硅片研发和验证WebFlex密码。他们首先在60例患者中验证这种专家模板导向器的性能 之后在241例患者中验证其临床效应 结果显示专家诊断系统证实的慢阻肺的诊断准确率为97.5% 认为这种专家系统即使在基层单位对慢阻肺的诊断也是一种安全可用的工具。另一项相似的研究结果显示 应用临床决策支持系统评估323例慢阻肺患者的敏感度为96% 特异度为90%。
为了减少慢阻肺早期诊断中对于肺功能检测的依赖,ML算法也被用于分析来自人体支气管上皮细胞提取物的转录资料。这将有助于确定慢阻肺发病过程中15种基因的异常表达。其中10种基因以前没有报道过可作为慢阻肺的生物标志物。其后应用随机森林算法对于这些不同基因组进行分析,以区别非吸烟者和吸烟者及慢阻肺患者[5]。尽管每个亚组具有明显的诊断准确率(65%),但是还需要进一步研究,以改善这种模型用以区分慢阻肺患者和单纯吸烟者的性能。鉴于慢阻肺患者诊断缺少特异性生物标志物,今后还需要结合另外两种血液生物标志物——N乙酰糖蛋白和脂蛋白,通过比较54例慢阻肺患者与74名正常人。这种模式诊断准确率可达84.62%,AUC为0.90[6]。这提示联合应用ML算法和生物标志物有助于慢阻肺的诊断,并可减少对于肺功能检测的依赖,然而这些尚需要采用大样本研究进一步验证其效力。
最近有一项研究采用30例慢阻肺患者和25名健康人的39项呼吸音资料,结合3项肺功能特征,采用ML算法进行5级分层以区别正常人与慢阻肺患者,支持向量机以及logistic回归分析,其诊断准确性、敏感性和特异性均为100%[7],通过同样途径从132例慢阻肺患者中提取22种不同的临床特征,根据这些证据产生一种可用于慢阻肺和哮喘的诊断决策支持系统,根据随机森林分类法,结果表明与其他技术相比,慢阻肺的诊断准确率最高达97.7%。此外研究表明吸烟、FEV1、年龄、FVC也是重要的预测指标[8],但是这些研究的样本数较小,而且为单中心研究结果,医学资料的输入不够均衡,可能会影响到慢阻肺的诊断,特别是在欠发达地区。最近研发的一种自动远距离健康AI处理系统,在几个研究机构中对780例慢阻肺患者进行验证,诊断准确率达97%[9],这种简单的设备可用于边远地区和死亡率较低的患者中。
二、AI/ML用于慢阻肺的分级和评估
按照GOLD建议,根据症状评估、急性加重情况和既往住院情况,慢阻肺患者可以分为四种表型。然而,这一模式的分辨率并不很高,而以AI/ML为基础的整合算法需要更多信息,包括生理学特点、肺功能检测结果、合并症、基因和生物学标志物,这样才能产生准确的表型分组、病情严重评估和指导治疗[10 11 12 13 14 15 16]。比如应用K-means分组就是分析了1 195例慢阻肺患者的生理学特征、病史、慢阻肺评估计分以及应用支气管舒张剂之后的FEV1,这样就确立了公认的4种表型:ACO(1组)、轻度慢阻肺(2组)、中度慢阻肺(3组)和重度慢阻肺(4组),第4组患者应用支气管舒张剂后的FEV1最低(46.7%预计值),6 min步行距离最短(365 m),慢阻肺评估实验计分最高(17.5分),然而,第1组急性发作风险最高[12]。不过这些结果尚需要更长时间的随访(>6个月)的支持和验证。另一项研究纳入1 676例亚洲慢阻肺患者,对其肺功能和生命质量计分进行为期1年的监测,将慢阻肺患者分为3种亚型:第1组的定义是肺功能结果恶化,但是症状很少。第3组显示症状并不严重,但是BMI高(肥胖)。第2组显示病情重,症状多,包括急性加重风险更高,FEV1恶化速度更快[13],然而这项重要研究的一个局限性在于90%的研究对象均为男性。另一项使用两种ML方法(K-means和等级分组)并根据患者的合并症和危险因素将30 961例慢阻肺患者分为五种表型:焦虑和抑郁组、重度气流受限和衰竭组、心血管疾病和糖尿病组、肥胖/特应性组以及无合并症组[10]。虽然上述研究应用不同的ML算法和临床变量,但是都具有某些局限性,全部有证据的设想都是在探索不同的表型分组,以改善个体治疗。出于同样的目的,应用8 980例慢阻肺患者的肺量计测值形成深度神经网络模式,确定了4种胸部CT图像扫描表型(正常、气道病变为主、肺气肿为主、混合型),与FEV1/FVC、FEV1占预计值%和随机森林分组相比,这种深度神经网络模型对于肺气肿/气道为主型,肺气肿/小气道为主型具有较高的准确性(AUC分别为0.80、0.91),然而,这项研究没有包括非吸烟的慢阻肺高危因素[17]。
慢阻肺患者存在的持续气流受限评估主要是依赖肺功能检测结果,然而临床实践中仅有少数患者能够完成这些实验检查,这就限制了高达56%的气流受限患者的诊断[18 19],鉴于在电子健康记录系统中很难确定FEV1测值,为此设计了一种自动AI工具,在41 659例患有慢阻肺的退伍军人中确定FEV1,这种新型AI模型显示出95%的正确率,作为一种检测工具有助于在大样本的患者人群中评估慢阻肺的病情[20]。
胸部CT扫描技术广泛用于确定肺部结构异常改变和评估慢阻肺的状态,然而大量的扫描资料并不能通过肉眼识别,这就提示在这个领域内需要应用AI和AI/ML系统[21],最近一项前瞻性研究,为了分析胸部CT扫描影像结果,采用支持向量机对慢阻肺患者的肺通气功能进行评估,这种评估模型采纳了87项扫描图像特点,在27例慢阻肺患者中进行效力检验,准确性为88%,AUC为0.82[22]。这些结果是令人鼓舞的,但可惜样本数较小。其中,大部分是中重度慢阻肺患者,将来的研究中应当包括轻度慢阻肺患者。
有作者应用一系列资料将人工智能算法用于预测慢阻肺患者临床预后或确定气道阻塞模型[23],ML模型成功的用于肺功能检测结果的自动解释、阻塞性肺疾病的鉴别诊断。卷积神经网络模型是一种用以辨认CT阻塞模式的适时方法[23]。González等[24]在慢阻肺Gene和Eclipse患者中(以下简称为Gene组和Eclipse组)应用胸部CT以确定这种方法是否可用于慢阻肺的诊断和分型,并预测加重和死亡,在第一阶段患者先应用来自Gene组的慢阻肺患者的胸部CT资料进行模型训练,之后应用已经产生的算法在其余1 000例Gene组慢阻肺患者和1 672例Eclipse组患者,在Gene组慢阻肺患者中根据可能性>50%进行预测,确定一致性指数为0.856。根据GOLD分期标准大约二分之一患者可以正确分期,75%的分期正确或接近正确,同样这种算法表明在Eclipse组中判断结果稍差一些,29%分期正确,75%分期相同或接近。同时还研究了预测急性加重的能力,根据这种模式测算Gene组慢阻肺患者发生AE的可能性是对照组的2.15倍(一致性指数为0.64),但是在Eclipse组这种模型并不能预测危险性增加的患者,在Gene组死亡预测能力很好(一致性指数为0.72),但是在Eclipse组则不好。总体而言,AI的使用在慢阻肺的诊断中显示出有希望的结果。
因为急性加重而住院是慢阻肺患者病情严重程度的评估指标,这对于临床实践也是很有用的,因而有作者采用改良式决策树算法分析了202例重度急性加重慢阻肺住院患者和208例轻度急性加重慢阻肺住院患者,共分析了28项临床特征,包括人口学、病史、生物标志物,根据患者入住ICU时的情况将患者分为重度和轻度两组,总体分期准确率达80.3%,提示这种算法可以用于评估住院的急性加重慢阻肺患者的严重程度[25],但是这项研究中没有包括住院患者的BMI和其他炎症因子。
慢阻肺与急性加重、早期确定急性加重是慢阻肺研究的重要目标之一,采用机器学习法进行一项为期6个月的研究,旨在形成一种预测急性加重的模式[26]。采用这种方法只能通过患者提供的资料进行学习,不管急性加重的定义如何,全部模型都具有很好的预测价值,便携式神经网络模式是最准确的(89.3%),而K-means准确率为84.7%,放射状基线功能神经网络模式准确率为82.8%。另外一项研究显示,便携式神经网络模型(居家电子监测症状)可以在急性加重发生之前4.8 d预测其发生,准确率为80.5%,只有3%的假阳性率[26],但其样本数较小(15例患者共发生41例次急性加重)。2015年同一组作者报道了相似的结果,15例患者中发生33例次急性加重,其中31例次急性加重发生前(4.5±2.1)d预测出来,这种方法有助于早期预测急性加重,这对于医生和患者都是非常有好处的[24]。2014年Hardenge等应用个体生理学特点、患者报告的症状、所用药物(吸入装置、抗生素、口服激素),通过可移动设备进行检验的一种算法,40%的急性加重者在患者开始用药3 d前即可发出报警信号[27]。Gonzale等[24]将深度学习技术用于预测7 983例慢性阻塞性肺疾病患者急性加重和呼吸衰竭的发生率 预测结果与临床的吻合率为74.6%。Ying等[27]建立了一种慢性阻塞性肺疾病疾病危重程度的自动分类算法 通过分析各种临床特点的权重建立预测模型,与GOLD指南相比 分类准确率达到90%。
三、AI/ML用于慢阻肺的管理和监测
慢阻肺患者持续存在气道炎症和气流受限,可引起反复急性加重和反复住院。为了有效管理慢阻肺患者和监测疾病进展,几项ML方法被证明比常规方法更有效[33 34 35],特别是ML算法。比如Lasso回归和深度神经网络被用于分析了44 929例住院的慢阻肺患者,这些患者被分为训练期(70%)和检验期(30%)。这一模型旨在预测和提示患者出院30 d后再住院的因素,结果表明该模式具有较高的预测提示效力,验差比C值为0.61,优于传统算法[28]。同样,几项深度和非深度ML算法也被用于分析慢阻肺患者具有医学法律效力的基线资料,以确立出院30 d再住院的可能性,结果显示最佳AUC为0.653[29]。在法兰西进行的一项回顾性研究应用决策树分析法,预测>40岁的143 006例慢阻肺患者再住院的可能性,这项研究不仅显示再住院的最相关的危险因素为既往住院的次数,还评估了6个月内再住院的费用[9]。尽管这些报告上具有几种局限性,比如缺少重要的临床特征,但是这些预测模型还是可以作为临床参考。
持续存在气流受限,但同时呼吸道持续无症状使得慢阻肺成为一种终生性威胁生命的疾病,因此监测肺功能的变化和预防持续气流受限就显得特别重要。最近研发了一种基于随机森林算法的ML模型,对于4 167例慢阻肺患者的肺量计资料进行分析,旨在预测最可能发生慢阻肺或未发展为慢阻肺的患者,该模型最初研究结果显示是FEV1,其次FEV1/FVC是发生气流受限的危险因子,这项模型研究可用于确定具有气流受限个体和早期预防慢阻肺[9]。
鉴于慢阻肺患者病情不可逆,早期决策和诊断是很关键的,于是有6项ML模型用于预测慢阻肺的发生。根据来自441例患者和192名正常人的101项单核苷酸多态性和5项临床特征进行分析,其中9项单核苷酸多态性与本病显著相关,包括6种危险因素和3种保护因素,在此实验条件下在所验证的模型中K-nearest相邻分级和logistic回归分析法显示最高精确率为82%,准确率为81%,应用多层感知机,根据人工神经网络算法[30],尽管本研究只涵盖了少数几个基因和临床特征,但这一模型对于慢阻肺的早期诊断还是有效的。这对于疾病早期阶段患者缺乏肺功能检测结果是一种补偿[31]。Gurbeta等[9]开制了一种可用于诊断哮喘和慢阻肺的自动诊断遥控系统 为了评价该系统的诊断效能 他们在3个偏远的初级健康照护单位以及 Bosniabos的一家医院和Herzegovina健康照护系统进行预实验 在为期6个月的研究中 对780例患者进行评估 其诊断准确率达97% 所采用的设备简便、方法简单 特别适用于偏远农村和孤立的社团患者会诊 以及用于年龄大活动不便患者的诊断。
ML算法还可用于分析功能性呼吸显像资料以预测急性加重和早期确定慢阻肺急性加重[32]。同样,一系列ML算法被用于分析来自135例慢阻肺急性加重患者和168名对照组的电子健康记录资料。进一步进行有效性验证,并与已有的模型进行比较,结果提示支持向量机性能最好,AUC为0.90[33],因此ML模型,特别是支持向量机有助于医生确定慢阻肺急性加重患者并及时做出决策,然而这一模型的性能还需要根据更多的数据进行验证。
慢阻肺的全球经济负担逐年增加,尤其是在高龄人群中更为突出。据测算,在欧洲用于慢阻肺的总支出占呼吸系统疾病每年健康保健费用的56%[34]。为了明确和预测中国慢阻肺患者的医疗消费,并提供重要的健康管理信息,用三种ML算法分析了54种不同的人口资料和来自780 295例住院患者的医学信息,全部ML模型显示出相当好的预测效能,极限梯度提升模型显示其最高敏感度为71.3%,AUC为0.801[35],提示在发展中国家对于患者、临床医生、医疗保险决策者和其他健康管理人员均可作为一种有效的管理工具。
因为在全球范围内慢阻肺是一种主要的死亡原因,某些研究也应用AI/ML技术预测慢阻肺患者的死亡风险[36 37]。一项广泛用于预测慢阻肺死亡的指标是BMI、气流受限和呼吸困难、运动能力指数,另一项模型包括呼吸困难、气流受限、吸烟状态、加重频率指数、年龄、气流受限指数以及圣乔治呼吸问卷计分、气流受限和运动耐力指数,对来自11个慢阻肺队列,>3 500例慢阻肺患者的存活进行分析并比较研究,结果发现ADO、BODE和改良式BODE性能最好,校正年龄后,改良式BODE优于ADO[38]。
有作者假设应用机器学习法处理临床和定量CT扫描数据,可以改善慢阻肺患者死亡预测水平,为此,作者选择了30项指标,包括临床肺量计测定结果和CT扫描特征作为随机存活森林预测法的输入项目,作者在Cox回归分析中应用若干顶层特征以生成ML预测慢阻肺死亡的指标(MLMP),同时评估其他统计学和机器学习模型的预测性能。作者首先在遗传流行病学研究的慢阻肺患者(Gene组)中选择部分中、重度慢阻肺患者进行模拟训练,之后在其余的部分中、重度患者中检验其预测性能,并且对慢阻肺患者进行长期评估,以确定替代终点指标的预测作用(Eclipse组)。此外,作者还将他们的模型与BMI、气流阻塞、呼吸困难、运动耐力指数改良式BODE指数,以及年龄、气流受限指数进行比较。本研究中2 632例慢阻肺患者来自Gene组,1 268例来自Eclipse组,预测死亡顶级指标是6 min步行距离、FEV1占预计值%和年龄,顶级CT扫描预测指标为肺动脉/主动脉之比。在Gene和Eclipse组中MLMP慢阻肺模型产生的C指数≥0.7,中位随访时间分别为6.4和7.2年,显著优于全部检验的死亡指数(P<0.05)。MLMP慢阻肺模型组与其他模型性能相比并无更多的预测指标,BODE指数最高分为7~10分时预测死亡的概率为64%,而MLMP慢阻肺模型组最高病死率为77%(P=0.012)。结论认为在预测慢阻肺全因死亡率方面MLMP慢阻肺模型的性能优于已有的4种模型,ML学习性能的表现与传统统计学相似[39]。
四、AI/ML用于慢阻肺的治疗
由于AI/ML技术可用于监测综合和分析来自慢阻肺患者的大数据、异质性临床数据,因而提示可以指导最佳个体化治疗,减少由于临床医生造成的过度治疗或治疗不足。然而目前只发现一项有关AI/ML在慢阻肺患者治疗中的应用研究[40],在这一项研究中根据来自135例中、重度慢阻肺患者的电子监测数据,包括生理学、症状和基线资料,形成了153项预测因子,根据这些预测因子产生出几种ML模型,这些资料包括人口学、病情严重程度、生活质量及住院资料,目的在于确定急性加重和慢阻肺使用激素治疗的指征,如果不考虑急性加重和激素的使用,ML最佳模型测试结果显示,其曲线下面积优于非ML模式(0.74~0.77vs0.60~0.66),加上天气资料后其性能并无改善,然而,这一模型性能的评估依赖于交叉验证结果而不是多种独立队列评估,尚需进一步验证。
慢阻肺的治疗主要是通过吸入用药,具体应用包括几个步骤,因而具体应用时许多患者都容易发生错误,监测吸入用药技术的正确性以及用药依从性对于改善治疗效果是十分重要的,应用AI技术可以跟踪和了解患者用药的依从性和用药技术是否正确,并及时反馈给医生可以进一步改善治疗效果。
五、结论与展望
对于AI/ML的模型应用已经获得结果的解释和推广应当谨慎。在慢阻肺的诊治工作中AI/ML的技术尚不能完全取代临床医生,还需要进一步研究和验证各种模型的性能,应用更大样本和更广泛的资料检验其临床应用的效能。
参考文献(略)