如何知道有没有被精准推流(单单单影像组学MRI套路)
如何知道有没有被精准推流(单单单影像组学MRI套路)那么我们就开始吧~~(ง •_•)ง也可以换种方式问,我的病例有CT和MRI的数据,想用单单单套路发文,用哪个数据比较好?首先让大家明白,即使是影像组学最简单的套路做好细节近两年发文还是完全没问题的。其次,通过三篇文章的横向比较,大家可以看出较高分文章的一些共性。本期我们进入MRI篇,在横向比较文章的同时,我们还要带着一个小问题来阅读,当今影像组学的“单单单”套路赛道上CT和MRI设备到底谁更有竞争力?
大家好,这里是平鑫而论专栏,我是鑫仔。跟紧鑫仔的小伙伴一定知道本期我们介绍的将会是大家期待已久的“单变量 单结局 单模型”小插曲之MRI篇!
从影像组学入门的角度,“单单单”套路位于影像组学7重花式玩法的入门第一层,是大家学习影像组学最先需要掌握的;从批量发文灌水的角度,“单单单”套路由于其工作量相对较小绝对快速发文的不二之选。
在之前的一篇推文(《给我一个机会,怎么给你机会?我以前没得选择,现在我想入门影像组学!》),以一篇18年运用该套路的文章为例,我们一起学习了文章流程的具体细节;
而之前的另一篇推文(《快收下这份2022年最简单好用的影像组学套路模板,博士毕业课题丝毫不惧!》),鑫仔精选近两年三篇应用CT设备的同套路文章进行比较:
首先让大家明白,即使是影像组学最简单的套路做好细节近两年发文还是完全没问题的。
其次,通过三篇文章的横向比较,大家可以看出较高分文章的一些共性。
本期我们进入MRI篇,在横向比较文章的同时,我们还要带着一个小问题来阅读,当今影像组学的“单单单”套路赛道上CT和MRI设备到底谁更有竞争力?
也可以换种方式问,我的病例有CT和MRI的数据,想用单单单套路发文,用哪个数据比较好?
那么我们就开始吧~~(ง •_•)ง
#01
第一篇,就是2021年发表在Frontiers in Oncology杂志上,题为“ Radiomics Analysis of Fat-Saturated T2-Weighted MRI Sequences for the Prediction of Prognosis in Soft Tissue Sarcoma of the Extremities and Trunk Treated With Neoadjuvant Radiotherapy” 的文章。
基本信息
杂志 |
Frontiers in Oncology |
分区 |
3区 |
IF |
6.244 |
发表时间 |
2021.09.17 |
核心要素
研究对象(P):接受新辅助放疗的四肢和躯干软组织肉瘤患者(n=62例)
预测模型(I/C):LASSO-cox回归模型构建的影像组学signature
结局指标(O):2年无病生存期(DFS)
研究类型(S):回顾性队列研究
影像采集时间:新辅助放疗前
研究目的:建立新辅助放疗前的四肢和躯干软组织肉瘤 (STS) 的影像组学模型,并建立与预后的关联
# 鑫仔说 #
本文纳入的62个病例中,自己中心仅提供20例样本,而其它42例样本从公共数据库TCIA获取。完美上演空手套白狼好戏!关于应用TCIA数据库的影像组学文章,鑫仔后面会出一个系列进行介绍~~
变量分析
预测变量X:影像组学特征
结局变量Y:DFS
协变量Z:性别、年龄(诊断时)、组织类型(未分化肉瘤 脂肪肉瘤 滑膜肉瘤 平滑肌肉瘤 纤维肉瘤 其它)、肿瘤分级(低 中 高 未知)、位置(躯干 四肢)、MRI T分期(cT1 cT2)、MRI N分期(cN0)、深度(表面 深层)、临床分期(I II III)、治疗策略(新辅助放疗 手术 新辅助放疗 手术 辅助化疗)
实验设计
借本文流程图,我们重点说说影像组学部分实验设计过程:
第一部分
① 高质量MRI影像数据获取: T2 加权脂肪饱和图像(T2FS)
② 图像预处理(固定bin width离散化;图像重新采样到体素大小为1×1×1 mm3)
③ 感兴趣体积VOI分割:3D Slicer,手动分割
# 鑫仔说 #
在对病灶进行分割前,最好对图像进行预处理操作:
1)对MR图像进行N4偏置场校正;
2)将图像重新采样到体素大小为1×1×1 mm3,以标准化体素间距;
3)体素强度值通过使用 5 SI的固定bin width进行离散化,以减少图像噪声并标准化强度,从而在所有图像中实现稳定的强度分辨率;
4)对图像进行归一化处理,将信号强度归一化至 1~100 SI,减少不同机器采集图像信号强度的差异。
敲黑板!!!预处理可以在VOI勾画前或后,但是必须在特征提取前。
文章这里的写法没有讲图像预处理(黄色)与影像特征提取(绿色)的顺序与小标题对应上,为我们提供了一个反例。
第二部分
④ 影像组学特征提取:pyradiomics,得到形态学特征(2D 3D)、一阶统计学特征、二阶特征和重建图像后基于小波变换的特征(见流程图)
第三部分
⑤ 特征的一致性评价:观察者内ICCs用于评估影像组学特征提取的可重复性(cutoff>0.9)
⑥ 数据预处理:z值标准化与ComBat补偿方法对影像特征进行标准化
# 鑫仔说 #
关于ComBat补偿方法最早在2021年在European Radiology上发布,简单来说就是一种用于来自多中心MR图像标准化的方法。
如果大家对次感兴趣的话,日后会专门写推文安排(疯狂暗示)
⑦ 特征选择:建立LASSO-Cox回归模型筛选非0系数特征,随后通过LASSO回归的结果建立Radscore。
# 鑫仔说 #
该过程由 “Glmnet“包完成,Glmnet是R语言中通过惩罚最大似然拟合的广义线性模型包(GLM= Generalized Linear Models,简单来讲,就是转化后的Y与X仍呈线性关系的模型,如普通线性回归、Cox回归、Logistic回归、Possion回归、Log-Binomial回归等)。
在glmnet包中,并不是通过λ1和λ2控制两个惩罚项的大小。相反,glmnet通过仅有一个λ,还有一个α,从而实现控制两个惩罚项的大小,α的取值范围是[0 1]。
- α决定岭回归和lasso回归的组成成分
§ 当α=0时,lasso回归的惩罚项系数为0,lasso惩罚项消失,故弹性网络回归降级为岭回归;
§ 当α=1时,岭回归的惩罚项系数为0,岭回归惩罚项消失,故弹性网络回归降级为lass0回归;
§ 当0 < α < 1,岭回归和lasso回归的惩罚项系数均存在,故弹性网络回归为岭回归和lasso回归的组合版本。
- λ决定惩罚的大小
§ 当λ=0时,惩罚项消失。降级为标准最小二乘法拟合线性模型或者最大似然法拟合logistic回归。
§ 当λ>0时,惩罚项保留,通过lasso回归或(和)岭回归缩减估计的参数。
这是LASSO回归的经典包,大家可以在这里先对Glment包的惩罚项的处理方式有个概念,日后我们在代码实战的时候进行详细拆解!
第四部分
⑦ 模型评价:生存分析风险分层
⑧ 列线图:结合临床特征及参数
⑨ 验证集验证 统计分析
# 鑫仔小结 #
仅提供20例临床样本,加上TCIA数据库样本也才仅仅62例,而且文章的撰写上其实是有一些问题的。能发到6分 ,首先得益于临床问题的新颖性,其次就是本本分分把我们所提到的套路从头到尾走了一遍,将简单做到了极致!
从这篇文章可以看出,即使现在仅有20例的样本,借助他人的力量(TCIA),目前影像组学赛道赛道还算小的情况下,最简单的套路论证逻辑完整6分 还是问题不大的。是不是心动呢了?
#02
马上进入第二篇,于2022年发表在Frontiers in Oncology,题为“ A Nomogram Based on Molecular Biomarkers and Radiomics to Predict Lymph Node Metastasis in Breast Cancer” 。
基本信息
杂志 |
Frontiers in Oncology |
分区 |
3区 |
IF |
6.244 |
发表时间 |
2022.03.15 |
核心要素
研究对象(P):乳腺癌患者(n=100例:45例无淋巴结转移,55例有淋巴结转移)
预测模型(I/C):Logistic回归模型
结局指标(O):发生淋巴结转移
研究类型(S):回顾性队列研究
影像采集时间:治疗前
研究目的:探讨基于影像组学signature构建的无创定量评估模型预测乳腺癌淋巴转移的可行性和有效性。
# 鑫仔说 #
结局指标是一个二分类变量,因此本文考虑采用logistic回归模型。
变量分析
预测变量X:影像组学特征
结局变量Y: 淋巴结转移
协变量Z:年龄、组织学分级(I II III)、分子生物标志物(Ki-67 PCNA COX-2 PR Her2)。
实验设计
借本文流程图,我们重点说说影像组学部分实验设计过程:
① 高质量MRI影像数据获取: 常规 T1WI 增强序列
② 感兴趣体积VOI分割:ITK-SNAP,分割方式未提及
③ 影像组学特征提取:pyradiomics,得到形态学特征、一阶统计学特征和纹理特征
④ 特征选择:最大相关性和最小冗余(mRMR)算法 LASSO回归,这也是影像组学特征选择的经典搭配,随后采用逐步回归法(向前、向后、双向)进一步对特征进行筛选,得到19个影像组学特征;筛选分子生物标志物
# 鑫仔说 #
mRMR是影像组学特征选择过程中非常常见的算法,我们日后会对mRMR算法进行详细讲解。
⑤ 模型构建:由19个影像组学特征构建多变量Logistic回归模型,计算Radscore。
# 鑫仔说 #
不少同学对Radscore/Radiomics signature 究竟是什么会有疑问,借这篇文章,鑫仔这里详细说说。
如图,Radscore/ Radiomics signature就是借助广义线性模型的公式(上文头提到)计算出来的,简化后就是这个样子Rad-score = β0 β1X1 β2X2 β3X3 ··· βnXn,前面β是权重系数,后面是筛选出来的特征。
提问:如果构建的模型不是广义线性模型,而是像随机森林,非线性SVM这样的模型该怎么办?
回答:这种情况算法会输出一个类似概率的风险值,这时候讲这个值视作Radscore。
⑥ Logistic模型评价:秩和检验,ROC曲线
⑦ 列线图构建:Radscore 分子生物标志物
⑧ 列线图评价:区分度 校准度 临床获益;三个模型(Radscore vs 临床分子标志物 vs 列线图)的性能比较评估——ROC曲线
⑨ 验证集验证
# 鑫仔小结 #
从协变量Z我们看出,文章的基线并不完整;从过程我们看出,作者并没有对图像预进行处理和组内、组间一致性评估过程,虽然用三个算法进行特征选择,可最后仍然有19个特征被提取,这使得三个模型的过拟合现象都非常严重。
虽然有不少缺点,文章还是有一些过人之处的。
首先,他在特征选择过程用了三种特征选择方法,mRMR LASSO 逐步回归,这种特征选择方式大家也可以用在自己的文章中;
其次,对分子标志物,Radscore,与列线图三个模型进行了ROC曲线的比较,最终证明列线图优于前者,这也是值得借鉴的。
全文总结
发表于同一本期刊,第一篇文章整体结构逻辑严密可以说将本套路发挥到了机制,可惜样本太少。第二篇在方法运用上可圈可点,样本也不错,可惜整体过程还是太糙了。选择这两篇文章,大家互补进行学习。
大家或许发现了一个共同点,两期所遴选的5篇文章有四篇都来自Frontiers in Oncology,这绝非巧合。虽然不少人称这本期刊为“水刊”,但仅仅20例病例和这么简单的套路就能发一6分 文章难道不香嘛?赶快行动吧!
小
张
点
评
XIAO ZHANG SAY
鑫仔这两篇文章选的还是挺好的,虽然目前Frontiers in Oncology总体口碑并不太好,杂志发文量大不假,但总体审稿还是规范、标准,而且影响因子也是比较平稳,都是维持在5 ,所以还是有不少我们可以值得学习借鉴的地方。
第一篇文章抛开样本量和检验效能不谈,小样本 TCIA公共数据库的玩法,有个合适的临床选题与切入点,以60多例样本量拿下6 的文章,说明这个领域总体赛道竞争还比较小,有心的大家如果做,可能完全可以做的更好,那同样是否也可以憧憬下6 的美好画面呢;
第二篇是纯的自己中心的队列的研究,临床问题也简单,就是用原发病灶的MR影像组学预测淋巴结转移,临床价值还是有,这些数据也是每个乳腺外科医生都具备的,只要有心收集好对应的影像资料,那我们是不是也可以模仿的来一篇?
同样,乳腺癌在TCIA中也有100多例的数据,参考第一篇的玩法,自己中心 TCIA的类似两中心的玩法,是否可以向一些经典期刊发起冲击呢。
参考文献
[1] Chen S Li N Tang Y et al. Radiomics Analysis of Fat-Saturated T2-Weighted MRI Sequences for the Prediction of Prognosis in Soft Tissue Sarcoma of the Extremities and Trunk Treated With Neoadjuvant Radiotherapy. Front Oncol. 2021;11:710649. Published 2021 Sep 17. doi:10.3389/fonc.2021.710649
[2] Qiu X Fu Y Ye Y Wang Z Cao C. A Nomogram Based on Molecular Biomarkers and Radiomics to Predict Lymph Node Metastasis in Breast Cancer. Front Oncol. 2022;12:790076. Published 2022 Mar 15. doi:10.3389/fonc.2022.790076