放射组学是量化图像分析的新兴领域,旨在将大规模提取的图像信息与临床和生物终点相关联。随着量化图像方法以及机器学习的发展,数据科学研究有了向更个性化的癌症治疗转化的机会。积累的证据确实表明,即放射组学的非侵入性先进图像分析,可以揭示肿瘤表型的关键组成部分,用于多个三维病变在治疗过程中的多个时间点。CT、PET、US和MR成像的这些发展可以增强患者的分层和预后,支持新兴的靶向治疗方法。近年来,深度学习架构在图像分割、重建、识别和分类方面展现了巨大的潜力。目前有许多强大的开源和商业平台可用于进入放射组学的新研究领域。然而,量化图像研究是复杂的,应遵循关键的统计原则以实现其全部潜力。特别是放射组学领域,需要重新关注最佳的研究设计/报告实践和图像获取、特征计算以及严格的统计分析的标准化,以推动该领域向前发展。在本文中,我们将回顾机器学习和深度学习作为放射组学基础签名或分类器的高级模型构建的主要计算工具,以及多种临床应用、工作原理、研究机会和放射组学的可用计算平台,主要以肿瘤学为例。我们还讨论了与医学物理中的常见应用相关的问题,如标准化、特征提取、模型构建和验证等。本文发表在Medical Physics杂志。 1 引言 放射组学是量化图像分析的新兴领域,旨在将图像的大规模数据挖掘与临床和生物终点相关联。其基本思想是医学图像所包含的信息远远超过人眼所能辨识的。被称为“放射组学特征”的量化图像特征可以使用不同的成像方式(例如MRI、CT、PET、超声等)提供关于肿瘤表型的强度、形状、大小或体积以及纹理的更丰富的信息。肿瘤活检提供的肿瘤特征是有限的,因为提取的样本可能并不总是代表整个患者肿瘤的异质性,而放射组学可以通过提取相关的成像信息全面评估三维(3D)肿瘤景观。这意味着,将众所周知的机器学习方法应用于从医学图像中提取的放射组学特征,可以在宏观上解码许多生理-病理结构的表型,并且理论上可以解决从表型推断基因型的逆问题,提供有价值的诊断、预后或预测信息。 放射组学这一术语起源于其他的—组学科学(例如基因组学和蛋白质组学),并明确表示基于医学图像调用个性化医疗的意图。它的根源可以追溯到医学图像的计算机辅助检测/诊断(CAD)。然而,随着医学成像采集技术和处理的最新进展和多样性,放射组学正在确立自己作为一个不可或缺的图像分析和理解工具,其应用超越了诊断,进入了为个性化患者管理和他们的治疗提供预后和预测方法。与CAD的主要区别在于,放射组学必须在调查时建立当前生理-病理结构特征与其时间演变之间的联系,以个性化治疗方法。最近,大量的数字医学图像和注释信息(例如,随着时间的推移或对给定处方的治疗反应、临床和生存信息)的可用性,基于先进硬件(例如GPU、集群或云计算)的计算能力的增加,以及像机器学习或深度学习这样的领域的巨大的数学和算法发展,都为挖掘正在生成的大量成像数据财富创造了有利条件。 当然,其他信息的互补性,如临床或实验室数据以及交互测量(例如,放射基因组学,将成像与基因组学相关联,或暴露组学,即患者与环境变量交互的互补信息)将在推动放射组学的未来成功中发挥关键作用,例如准确性和可重复性,达到适合常规临床实践的水平。 放射组学已被应用于许多疾病,包括癌症和神经退行性疾病等。尽管这里引用的例子来自癌症领域,但这里介绍的原则在医学成像领域普遍适用。近年来发布的出版物数量几乎呈指数增长。尽管已经有很多关于放射组学的综述文章,包括其定义、技术细节以及在医学不同领域的应用,但将放射组学视为一种图像挖掘工具自然地适用于机器/深度学习算法作为放射组学基础签名的高级模型构建的计算工具。这将是本文的主题,讨论与医学物理中的常见应用、标准化、特征提取、模型构建和验证相关的问题。 2 癌症放射组学的研究和临床应用概述 在本节中,我们将回顾放射组学在肿瘤检测、特征化以及预测结果方面的应用。除非另有说明,所有描述的研究均为回顾性和单一机构的。 2.1 放射组学在诊断中的应用 2.1.1 癌症检测和自动轮廓描绘 结合放射组学特征提取与机器学习的放射组学方法,可以用于检测/诊断癌症或自动描绘肿瘤病变。放射组学驱动的自动前列腺肿瘤检测方法通常使用一种在多模态图像中计算的特征集上进行训练的监督方法。为了检测前列腺癌,特征是在前列腺的多模态MRI中的3×3像素滑动窗口中计算的。使用支持向量机(SVM)分类器将体素标记为癌变或非癌变。在Algohary等人的研究中,前列腺被分割成训练组中恶性和正常区域之间的侵袭性区域。使用带有条件随机场空间调节的体素逐个随机森林模型(RF)来分类多模态MRI(T1、对比增强(CE)T1、T2和FLAIR)中的体素,这些MRI是多形性胶质瘤(GBM)患者的大脑,分为五个类别:非肿瘤区域和四个肿瘤亚区域,包括坏死、水肿、非增强区域和增强区域。卷积神经网络也已经应用于头颈癌放疗中的风险器官分割,以及与传统方法相比,应用于肺癌和肝癌的分割。 2.1.2 组织病理学和肿瘤分期的预测 放射组学有潜力彻底改变传统的肿瘤特征描述,并取代基于宏观变量的经典方法,可以用来区分恶性和良性病变。使用连通组件标记和自适应模糊区域生长算法自动检测的乳腺癌病变,使用放射组学特征在数字乳腺摄影、动态增强MRI和超声上被分类为良性肿块或恶性肿瘤。基于平均表观扩散系数(ADC)的放射组学模型在前瞻性MRI解释期间,其准确性优于放射科医生对前列腺病变作为临床显著癌症(Gleason分级组≥2)的特征描述。深度学习多参数MRI迁移学习方法也显示出将前列腺癌分类为高级/低级或分级的能力。基于CT图像的放射组学模型已被用于预测肺癌的组织病理学(腺癌或鳞状细胞癌)和PET肿瘤分期,以及肺腺癌中的微乳头状模式(微乳头状是描述肿瘤细胞在组织学上的生长模式的一个术语,这种模式可能与疾病的严重性和预后有关)。 2.1.3 微环境和肿瘤内部划分 一个结合了CE-CT和18F-FDG PET特征的放射组学签名被应用于头颈癌中高水平缺氧的存在,根据18F-FMISO PET中的最大肿瘤-血液摄取比率> 1.4来定义。 已经开发了分类和聚类方法用于肿瘤分离成子区域(生境成像)(编者注:"生境成像"(Habitat Imaging)是放射组学中的一个概念,它涉及到对肿瘤内部的不同子区域或“生境”进行成像。这些子区域可能代表了肿瘤的不同生物学特性或异质性。例如,一个肿瘤可能有一些区域是高度活跃的,而其他区域则可能是坏死的或低氧的。通过对这些不同的“生境”进行成像和分析,医生和研究者可以更好地了解肿瘤的行为和其对治疗的反应。这种方法有助于揭示肿瘤的内部异质性,并可能为个性化治疗提供有价值的信息),这有助于揭示肿瘤的异质性,并可能选择子区域来增加放射剂量。一项放射组学分析专注于胶质母细胞瘤(GBM)多样性的特征化,使用各种多样性指数来量化肿瘤的生境多样性,以及将其与潜在的分子改变和临床结果相关联。 2.1.4 肿瘤基因型 在肺癌患者中,放射组学特征与基因表达模式之间发现了显著的关联。放射基因组学研究展示了放射组学表型与乳腺癌基因组特征之间的关联,如线粒体DNA(miRNA)表达、蛋白质表达、基因体细胞突变和转录活动。特别是,肿瘤大小和增强纹理与转录途径的活动和miRNA表达有关。通过多重逻辑回归和成对选择,实施了放射组学模型从CT中识别上皮生长因子受体(EGFR)突变状态,并解码肺腺癌中的ALK(间变性淋巴瘤激酶)、ROS1(c-ros癌基因1)或RET(转录重排)融合。 三阴性乳腺癌(TNBC)很可能通过考虑背景腺体增强的异质性来识别,这种异质性通过DCE-MRI上的定量纹理特征进行表征,为这种差异化模型增加了价值,因为它们与TNBC亚型强烈相关。此外,已经证明TNBC可以使用超声放射组学与纤维腺瘤区分开来。通过惩罚逻辑回归与最小绝对收缩和选择操作符(LASSO)分析获得的放射组学评分显示,纤维腺瘤和TNBC之间存在显著差异。从GBM的MR中提取的放射组学特征能够预测免疫组化鉴定的蛋白质表达模式。 尽管放射组学和基因组学之间存在大量的关联证据,但很少有临床前研究证明了肿瘤基因型与放射组学之间的因果关系。在一项研究中,HCT116结肠癌细胞被培养为NMRI-nu小鼠腹部的异种移植瘤。然后通过给予HCT116四环素(dox)或安慰剂来诱导GADD34基因的过表达。放射组学分析表明,基因过表达导致放射组学特征的变化,因为许多特征在dox处理组和安慰剂组之间存在显著差异。 2.1.5 临床和宏观变量 从T2-w和ADC MRI扫描中提取的放射组学特征与与患者预后相关的临床变量相关。这些包括前列腺癌患者的前列腺特异性抗原(PSA)水平,以及头颈鳞状细胞癌的人乳头瘤病毒(HPV)状态。鉴于HPV阳性头颈癌的众所周知的表现,它可能在化疗辐射的较低剂量下产生反应,这为基于CT的患者分层提供了降低剂量的可能性。 2.2 放射组学在治疗中的应用 因为放射组学特征可以描述肿瘤的组织学和遗传足迹,这些与肿瘤的侵袭性相关,所以它们可以用来构建模型来预测癌症治疗的结果,无论是局部/远处控制还是生存,使用各种治疗选择(放射、化疗、靶向分子治疗、免疫治疗、非电离辐射)或它们的组合进行治疗。 2.2.1 局部控制、反应和复发 放射组学预测了对非小细胞肺癌(NSCLC)和局部晚期直肠癌进行新辅助化放疗的反应,该反应在手术时进行评估。使用PET和CT签名描述了接受肺癌立体定向放疗的患者的局部控制,该签名是通过使用PET和CT的特征使用监督主成分分析开发的。使用一阶统计、GLCM和3T MRI中的T2-w和ADC的几何测量通过RF(随机森林)方法开发了一个放射组学模型,用于放疗后前列腺癌的生化复发。从使用T1-w、T2-w和DWI序列的增强3T MRI中提取了126个放射组学特征,以预测鼻咽癌(NPC)对化放疗的治疗反应。深度学习方法与放射组学也被提议用于预测肝脏和肺癌放疗后的结果。 2.2.2 远程转移放射组学 模型预测了接受肺癌立体定向放射治疗(SBRT)的NSCLC患者的远程转移(DM)的发展,这些特征来自CT或PET-CT。Vallières等人使用基于纹理的模型对软组织肉瘤的肺转移风险进行早期评估,这些肉瘤来自前处理的FDG-PET和MRI扫描,包括T1-w和T2-w抑制脂肪序列(T2FS)。开发了一个放射组学签名,用于预测局部晚期腺癌后的DM(远程转移)。对肿瘤周围空间的分析可以提供有关远程复发风险的宝贵信息,因为更侵袭性的肿瘤可能在肿瘤周边有不同的形态模式。一个SVM分类器被训练来从肿瘤周围空间的放射组学分析预测远程复发。 2.2.3 生存率 Aerts等人在回顾性肺癌队列中构建了一个由四个特征组成的放射组学签名,该签名预测了头颈部和NSCLC独立队列的生存率。使用LASSO程序识别了一个来自GLCM的纹理特征,SumMean,作为整体生存的独立预测因子,该特征在决策树中补充了代谢性肿瘤体积(MTV)。一个放射组学签名是从PET-CT构建的,用于肺癌的SBRT后的生存率。深度学习也被提议使用标准治疗CT来根据死亡风险对NSCLC患者进行分层。 2.2.4 靶向分子治疗 许多肿瘤通常过度表达如EGFR这样的癌基因,并对如EGFR酪氨酸激酶抑制剂这样的分子靶向治疗产生反应。从治疗前和治疗后3周的CT采集之间的特征变化中,可以识别出对吉非替尼治疗产生反应的NSCLC患者。设计了一个放射组学预测模型,用于根据抗血管生成治疗后的GBM的无进展生存和总体生存对患者进行分层。 2.2.5 免疫治疗 通过免疫检查点阻断的癌症免疫治疗是一种有前景的治疗方式,目前正在开发中,且迫切需要模型来选择对免疫治疗产生反应的患者。在一项回顾性多队列研究中,从CE-CT图像中开发了一个八特征的放射组学签名,预测CD8 T细胞的存在,该细胞与肿瘤-免疫表型相关,使用弹性网正则化回归方法。该签名在外部队列上成功验证,用于鉴别免疫表型,以及预测生存和对抗PD-1或PD-L1免疫治疗的反应。 2.2.6 Delta-放射组学 特征的纵向研究及其在治疗过程中的变化,目的是预测对治疗的反应,被称为delta-放射组学。从治疗前和每周治疗期间的CT计算的特征在放射治疗(RT)期间对NSCLC发生了显著变化。Delta放射组学可能通过锥形束CT(CBCT)设备进行,用于放射治疗的图像引导,从而允许对肿瘤对总剂量、分割和分割剂量的反应进行大规模研究。已经显示,可以从CBCT中提取出与CT特征一样多的可重复特征,预测NSCLC患者的总体生存率。尽管如此,CBCT delta-放射组学的研究仍然仅限于可行性和重复性的评估。 2.2.7 副作用的预测 基于放射组学的模型可以帮助早期识别出副作用的发展,如放射性肺损伤(RILI)。从治疗前到治疗后(3、6和9个月)的CT特征与肺损伤显著相关,肺损伤是由肺癌放疗后的肿瘤科医生评分的,并且发现与剂量和分割有关。 构建了一个基于逻辑回归的分类器,结合多个特征的信息,以识别那些接受食管癌放射治疗的患者中哪些将发展为≥2级放射性肺炎。正常肺部图像特征的添加提高了模型性能,相对于放射性肺炎(RP)的传统剂量和临床预测因子,这表明在RP预测的背景下应考虑治疗前的CT放射组学特征。从用于RP的治疗计划扫描中定义的整个肺部容积中提取了CT放射组学特征。 2.2.8 区分复发与良性变化 在随访图像中区分肿瘤复发与良性放射性变化可能是临床医生面临的主要挑战。一个由CT中的五个图像外观特征组成的放射组学签名显示出高度的区分能力,可以区分SBRT患者的肺肿瘤复发与固化和不透明度。同样,从CE-T1w和T2w MR中的五个放射组学特征被发现能够区分伽玛刀放射外科治疗脑转移瘤的患者的随访MR图像中的坏死与进展。 2.2.9 非电离辐射和其他治疗 当对癌症或健康前列腺组织进行激光间质热疗法(LITT)时,MRI中的放射组学特征反应不同。LITT是一种对低级别、局限于器官的前列腺癌的高度有前景的局部策略。然后,一个放射组学签名可以允许评估前列腺癌是否成功消融。一个放射组学模型预测了肝细胞癌经导管动脉化疗栓塞结合高强度聚焦超声治疗后的完全反应。 3 放射组学分析与机器和深度学习方法 3.1 预处理 在进行放射组学分析之前,需要对图像进行预处理步骤,目的是减少图像噪声,增强图像质量,使放射组学分析可重复且可比较。对于某些成像方式,如PET,图像应转换为更有意义的表示(标准摄取值,SUV)。可以通过平均或高斯滤波器实现图像平滑。对于具有可变体素大小的数据集,体素大小重采样很重要。特别地,某些纹理特征提取需要各向同性体素大小。插值算法有两个主要类别:多项式和样条插值。最近邻是一个零阶多项式方法,它将最近邻的灰度值分配给插值点。双线性或三线性插值和双三次或三三次插值经常用于二维(2D)平面插值或3D情况。三次样条和卷积插值是三阶多项式方法,与线性方法相比,它插值更平滑的表面,但在实现上更慢。线性插值是一种常用的算法,因为它既不会导致由最近邻生成的粗糙的阻塞伪影图像,也不会导致可能由更高阶插值产生的超出范围的灰度级。 在基于特征的放射组学分析的背景下,如下所述,纹理的计算将需要对灰度级(强度值)进行离散化。有两种方法可以进行离散化:固定的箱数N和固定的箱宽B。对于固定的箱数,我们首先确定一个固定的N箱数,然后使用下面的公式将灰度级离散化到这些箱中: 其中,Xgl,k 是第k个体素的强度。对于固定的箱宽,从最小值 Xgl,min 开始,每一个强度间隔的 wb 将被分配一个新的箱子。离散化的灰度级计算如下: 固定箱数方法在使用的模态未经良好校准时更为合适。它保持了对比度并使不同患者的图像具有可比性,但失去了与图像强度之间的关系,而固定箱宽方法保持了与原始尺度的直接关系。关于这两种方法的影响的一些研究表明,固定箱宽方法提供了更好的重复性,因此可能适用于患者内部和患者之间的研究,但这仍然是持续研究的课题。在CT放射组学中,图像像素强度映射到Hounsfield单位(HU),因此更直接地具有可比性和可解释性。MRI相关的模态更具挑战性,因为像素强度不是直接可解释的,而是需要相对于某些标准参考进行归一化(例如,对侧大脑,或神经成像中的正常出现的白质,腹部成像中的腰肌等)。 3.2 用于放射组学的机器和深度学习算法 机器和深度学习算法为挖掘大量可用的图像数据提供了强大的建模工具,揭示了底层复杂的生物机制,并使个性化精确的癌症诊断和治疗计划成为可能。以下将简要介绍两种主要类型 - 基于特征工程的(传统放射组学)和非工程化的(基于深度学习)放射组学建模方法。一般来说,机器学习方法也可以分为基于特征和无特征的有监督、无监督和半监督方法。以下各节将简要讨论这些类别。图1显示了图像采集后的放射组学分析过程的工作流程图。 图1. 基于特征的(传统机器学习)和无特征的(深度学习)方法的放射组学分析工作流程。 3.2.1 基于特征工程的放射组学方法 传统上,提取的放射组学特征是手工制作的特征,它们捕获图像数据中的特征模式,包括基于形状的、一阶、二阶和更高阶的统计决定因素以及基于模型的(例如,分形)特征。基于特征的方法需要对感兴趣的区域(ROI)进行分割,可以通过手动、半自动或自动方法进行。基于形状的特征是区域的外部表示,它描述了ROI的形状、大小和表面信息。典型的指标包括球形度和紧凑性。一阶特征(例如,均值、中位数)描述了ROI的整体强度和变化,同时忽略了空间关系。相比之下,二阶(纹理)特征可以提供体素之间的关系。纹理特征可以从不同的矩阵中提取,例如,灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)等。语义特征是另一种可以从医学图像中提取的特征。这些特征描述了图像的定性特征,通常用于放射学工作流程。 当我们处理结果建模时,数百甚至数千的放射组学特征并不少见。因此,特征选择和/或提取是一个关键步骤,旨在获得与端点最相关且彼此之间最少相关的最佳特征子集或特征表示。获得特征子集后,可以基于它们应用各种机器学习算法。在两个独立的肺癌队列中,评估了14种特征选择和12种分类方法的预测性能。有时,特征选择和模型构建可以一起实施,称为嵌入式方法,例如最小绝对收缩和选择算子(LASSO)。相反,包装器方法根据不同特征子集的模型性能选择特征,为此我们需要在选择特征后重新构建模型,例如递归特征消除支持向量机(SVM-RFE)。 过滤器方法也将特征选择和模型构建过程分开,其独特之处在于它独立于用于后续模型构建的分类器,例如基于皮尔逊相关性的特征排名。在任何特征选择方法中,确保在特征选择、超参数优化和模型选择中都没有“双重挖掘”训练数据是至关重要的。相反,应使用“嵌套交叉验证”的方法,以防止过度拟合或不正确的泛化估计。根据是否使用标签(基本事实),特征选择和提取可以分为有监督、无监督和半监督方式。上面讨论的三种特征选择方法大多是有监督的。无监督方法的例子有主成分分析(PCA)、聚类和t分布随机邻域嵌入(t-SNE)。PCA使用正交线性变换将数据转换为新的坐标系统,以便将大的方差投影到正交坐标上。聚类是另一种特征提取算法,旨在根据某种相似性度量找到相关特征并通过其聚类中心组合它们,例如K均值和层次聚类。无监督共识聚类使用乳腺癌患者的动态CE-MRI数据确定了稳健的成像亚型。t分布随机邻域嵌入是一种降维方法,能够保留数据的局部结构(成对相似性),同时揭示一些重要的全局结构。 在医学领域,主要调查两种类型的问题,二元问题(分类),例如疾病是否复发,患者是否在某个时间阈值之后仍然存活等;以及生存分析,即能够显示风险因素或治疗是否影响到事件发生的时间。对于分类问题,逻辑回归适用于预测事件存在概率的logit转换的变量系数。支持向量机(SVM),在计算机辅助诊断(CAD)和放射组学中经常使用,学习一个尽可能将类别分开的最优超平面,同时尝试平衡误分类的情况。SVM还可以使用“核技巧”执行非线性分类——不同的基函数(例如,径向基函数),映射到更高维的特征空间。超平面在非线性特征空间中最大化两个类别之间的边距。SVM也容忍边界错误一侧的一些点,从而提高模型的稳健性和泛化能力。 随机森林(RF)基于决策树,这是机器学习中的一个流行概念,尤其是在医学领域,因为它们以连续的“如果-那么”表示假设,类似于人类的推理。RF将自助聚合应用到决策树,并通过降低树的高方差来提高性能。风险评估模型(分类和生存)通过RF和不平衡调整策略构建,用于头颈癌的局部区域复发和远处转移。 尽管通常用于无特征的上下文中,神经网络也可以用于传统的特征选择和建模。这些算法主要用于有监督学习,而在医学领域特别是,有很多没有标签的数据,在这些情况下,可以应用半监督学习来利用未标记的数据与少量标记的数据。自训练是用其预测获得的额外标记数据进行引导的。换句话说,支持向量机(TSVM)尽可能远离边界保持未标记的数据。基于图的方法构建一个连接相似观察的图,并使类信息能够通过图传输。 对于生存分析,Cox回归,随机生存森林和支持向量生存方法也可用于研究一组可能影响生存时间的变量。由于长度限制,我们不会深入细节。有兴趣的读者可以参考这些参考文献以了解更多关于这些算法的信息。 3.2.2 无特征工程的放射组学方法 尽管传统的手工特征提供了有价值的先验知识,但其设计过程繁琐,可能无法准确地捕捉图像的真实特性。随着基于多层神经网络的深度学习技术的发展,特别是卷积神经网络(CNN),机器现在能够自动学习图像特征。深度学习允许数据表示和预测任务(例如分类或回归)同时进行。在这种情境下,多层神经网络通过各种模块(例如卷积或池化)和激活函数学习数据的多层次抽象表示,然后通过全连接层进行分类。 典型的应用场景是使用CNN的数据表示层作为特征提取器。网络中的每个隐藏层模块都会在某一层次上转换数据表示。例如,第一层可能表示图像中特定方向的边缘,第二层可能检测观察到的边缘中的图案,第三层可能识别出由图案组成的对象。 基于像素/块的机器学习(PML)方法直接使用图像中的像素/体素值,而不是从分割对象计算的特征。这种方法消除了对分割的需求,这是放射组学特征变异的主要来源之一。此外,数据表征消除了特征选择部分,从而消除了相关的统计偏见。 对于CNN网络,我们可以选择自行设计或使用现有的结构,例如VGG或Resnet。根据数据大小,我们可以选择固定参数或使用我们的数据进行微调,这也称为迁移学习。我们可以直接使用深度网络进行整个建模过程,而不仅仅是作为特征提取器。 CNN与常规神经网络相似,但其架构经过修改以适应大规模图像的特定输入。受到Hubel和Wiesel关于动物视觉皮层的工作的启发,CNN使用局部滤波器在输入空间上滑动,这不仅利用了自然图像中的强烈局部相关性,而且还通过为每个滤波器共享权重显著减少了权重数量。 循环神经网络(RNN)可以使用其内部记忆处理序列输入,并将先前的输出作为输入。LSTM和GRU是两种流行的RNN变体,它们通过内部门解决了长序列的梯度消失问题。 深度自编码器(AE)是一种无监督学习算法,已被应用于医学图像的特征提取。还有其他AE的变种,如变分自编码器和卷积自编码器。受限玻尔兹曼机(RBM)是另一种无监督方法,由可见层和隐藏层组成。RBM与AE非常相似,但RBM使用具有某种分布的随机单元,而不是使用确定性单元,如RELU。 如上所述,尤其在医学领域,标记数据是有限的。基于神经网络的半监督方法结合了无监督和有监督学习。这种方法通过使用来自无监督生成模型(例如,自编码器AEs、受限玻尔兹曼机RBM等)的额外损失组件来训练有监督的网络。这种结合方法旨在最大化利用有限的标记数据,同时从未标记的数据中提取有价值的信息。 机器学习方法在样本数量众多时非常有效;但在训练样本有限的情况下,它们容易出现过拟合的问题。对于深度学习,训练过程中通常会实施数据增强(例如,通过对图像进行仿射变换)。迁移学习是另一种减少训练难度的方法。它使用在其他数据集(如自然图像)上训练的深度模型,然后在目标数据集上进行微调。为了减少过拟合,网络的结构也可以进行修改,例如添加dropout和批量归一化层。Dropout在训练过程中随机停用一部分单元,可以被视为一种正则化技术,为隐藏单元添加噪声。批量归一化通过对每个训练小批量进行归一化来减少内部协变量偏移。 与基于特征的方法相比,深度学习方法更为灵活,经过一些修改后可以用于各种任务。除了分类,深度学习技术还广泛探索了分割、配准和病变检测。全卷积网络(FCN)是端到端训练的,它合并了编码器中不同阶段学到的特征,然后通过反卷积对低分辨率特征图进行上采样。U-Net是基于FCN构建的,其中池化层被上采样层替代,形成了一个近似对称的U形网络。跳跃结构将上下文信息与未采样的特征图结合起来,以实现更高的分辨率。CNN是端到端从临床图像中训练出来的,直接用于皮肤癌的二分类,其性能与专家相当。Chang等人提出了一种多尺度卷积稀疏编码方法,为学习可转移的基础知识并对其进行微调提供了一个无监督的解决方案。 3.3 放射组学模型的验证和基准测试 一旦使用选定的预测因子开发了模型,就有必要量化模型的预测能力(验证)。基于TRIPOD标准,有四种验证类型:(1a) 在相同的数据上开发和验证,这提供了明显的性能。这种评估通常是对真实性能的乐观估计。(1b) 使用所有数据开发模型,然后使用重采样技术评估性能。(2a) 随机将数据分为两组,分别进行开发和验证。(2b) 非随机分割数据(例如,按位置或时间),这比(2a)、(3)和(4)更强。在一个数据集上开发模型并在另一个数据集上进行验证。如果有一个单独的数据集用于外部验证,那么这是理想的,但是,在只有一个数据集可用的常见情况下,需要内部验证(1b)。两种流行的重采样方法是自助法和交叉验证。在进行机器学习之前需要进行特征选择,这应该在交叉验证之前进行,否则由于特征的预筛选而导致选择偏见。 放射组学分类器输出一个分数,该分数表示某一事件发生的可能性,并根据手头的任务设置一个阈值,以生成正或负的预测。例如,如果我们正在实施一个保守的实验,那么我们需要更少的假阳性,因此更大的阈值是首选。分类器使用数字指标(例如,准确性)、所谓的混淆矩阵或性能的图形表示(例如,接收者操作特性曲线(ROC))进行评估,ROC是一个二维图,真阳性率是Y轴,假阳性率是X轴。它们的优点是在不考虑阈值和类分布的情况下显示分类器的性能,因此在模型评估中被广泛使用。ROC曲线下的面积(AUC)在比较时更为方便,等同于分类器将随机选择的正实例排名高于随机选择的负实例的概率。对于生存分析,Harrell的C指数通常用于测量模型的区分能力,它受到Kendall's tau相关性的启发。Harrell定义了整体C指数,作为所有可用对中预测的风险概率和结果一致的比例(可用对是至少其中一个是事件的两个案例)。 Kaplan–Meier (KM) 曲线用于从生命周期数据估计生存函数,并用于比较不同的风险组。风险组可以是接受某种计划治疗的患者和对照组,或者它们可以是来自生存模型(例如,Cox模型)的输出,该模型将患者分为高风险和低风险组。强烈建议可视化曲线的置信区间。log rank测试为不同曲线之间的差异提供了定量评估的统计显著性,这也被广泛地用于KM曲线 4 医学物理实践中的实施 4.1 放射组学的软件工具 在大多数已发布的放射组学研究中,都使用了内部开发的方法。然而,一些研究团队开发了图像分析/放射组学软件工具,这些工具既有商业的,也有开源的,供科学界使用。这些工具的主要目标是:(a) 加速基于最新放射组学技能的能力开发;(b) 允许不同研究团队的结果的可重复性和可比性,以及 (c) 标准化特征定义和计算方法,以确保放射组学结果的可靠性。 表1显示了一些免费提供的用于提取放射组学特征的软件、网络平台和工具包,以及它们的一些主要功能和相关信息。考虑到放射组学发展的高速度,这个列表并不是详尽无遗的,也不打算涵盖所有可能的解决方案。此外,考虑到最近对放射组学领域的兴趣增加,许多其他专用工具正在开发中。这个概述中显示的所有开源解决方案都是由研究团队实施的(MaZda,114 LifeX,115 ePAD,116 HeterogeneityCAD,3 PyRadiomics/Radiomics,117 QuantImage,118 Texture Analysis Toolbox,43 QIFE,119 IBEX,120 和 MedomicsLab),它们能够分析CT、MRI和PET,其中一些还可以处理其他医学图像,如乳腺、放射或超声成像。 表1. 放射组学分析的开放访问软件程序。 为放射组学创建了一个用于CT113或CBCT126的模体,称为Credence Cartridge Radiomics (CCR) 模体。它由十个密度和纹理属性不同的组件组成,以产生广泛的放射组学特征值:木头、橡胶、软木、丙烯酸和石膏。还提议了用于PET的异质病变的模体,例如,使用不同的3D打印插入物反映FDG摄取的不同异质性。 数字模体通常是在受控条件下获得的患者扫描。因此,它们是真实的,但不能用于研究放射组学特征对图像采集及其参数的敏感性。现在,通过The Reference Image Database to Evaluate Therapy Response (RIDER)可以公开访问一个由31组重复的CT扫描组成的数据集,这些扫描大约相隔15分钟。这个数据集允许进行“测试-重测”分析,即比较在短时间内对同一患者获得的图像的结果。 图2. 由图像生物标志物标准化倡议定义的放射组学计算工作流程。 总的来说,使用标准化的计算方法将极大地提高放射组学研究的可重复性,并可能导致为社区提供的标准化软件解决方案。更可取的是,现有软件的代码应更新以符合IBSI制定的标准。此外,放射组学研究中必须包括IBSI和Vallières等人定义的特征计算详细描述,如表2所示。最终,我们设想使用专用的知识本体来通过一致的特征、图像处理参数和滤波器标记来提高放射组学分析的互操作性。放射组学本体可以提供一种标准化的方法来报告放射组学数据和方法,并更简洁地总结给定放射组学工作流的实施细节。 a为了减少观察者之间的差异,自动和半自动方法受到青睐。 b在多模态应用中(例如 PET/CT、PET/MRI 等),ROI 定义可能涉及通过共振配准在模态之间传播轮廓。在这种情况下,还应提供配准的技术细节。 最后,已经存在一些指导原则,可以帮助放射组学科学家进一步将负责任的研究范式应用到他们当前的实践中。为了更好地进行科学数据管理和管理,提出了一套简洁的原则,即“FAIR 指导原则”,指出所有研究对象都应该是可找到的、可访问的、可互操作的和可重复使用的。在放射组学领域实施 FAIR 原则可以促进其更快的临床转化。首先,所有的方法细节和临床信息都必须清晰地报告或描述,以便于重现和与其他研究以及荟萃分析进行比较。其次,必须在足够大的患者数据集中测试模型,这些数据集与教学(训练和验证)集不同,以统计地证明它们相对于传统模型(例如,现有的生物标志物、肿瘤体积、癌症分期等)的有效性。为了实现最佳的可重现性潜力和进一步的独立测试,需要将与给定研究相关的所有数据、最终模型和编程代码提供给社区。表3提供了可以帮助评估放射组学研究质量的指南。关于可重现的预后建模的更多指南也可以在 TRIPOD 声明中找到。 7 结论 放射组学领域在医学物理领域不断发展,为医学物理社区提供了一个参与定量成像安全转化的新研究的激动人心的机会。基于机器和深度学习的模型有潜力为临床医生提供决策支持系统(DSS),以改善肿瘤学中的诊断、治疗选择和反应评估。随着该领域的扩展,将放射组学特征与其他临床和生物变量关联的需求将变得越来越重要。该领域还应继续努力实现标准化的数据收集、评估标准和报告指南,以便作为一个领域成熟。数据共享对于开发适当验证放射组学模型所需的大规模数据集至关重要,将需要跨多个机构的合作来验证模型。为了将放射组学模型引入临床实践,有必要通过专家观察者研究和最终的临床试验,证明其对临床工作流程和决策的改进。机器和深度学习领域的未来发展,以及它们在可解释性和预测之间的改进平衡,也将继续推进放射组学研究。 |
|