《BMC Medical Imaging》杂志 2025 年4月22日在线发表台北阳明交通大学的Huai-Che Yang , Tzu-Chiang Peng , Zhi-Hong Chen 等撰写的《深度学习在放射外科治疗脑膜瘤后脑水肿自动分割中的应用。Deep learning for automated segmentation of brain edema in meningioma after radiosurgery》(doi: 10.1186/s12880-025-01660-x.)。 ![]() 背景: 虽然伽玛刀放射外科(GKRS)通常用于治疗良性脑肿瘤,如脑膜瘤,但在手术后几个月内,对周围脑组织进行照射可导致病灶周围水肿。局部水脑肿的体积评估对治疗计划和监测至关重要。放射外科治疗后病灶周围脑水肿的改变,在磁共振T2加权(T2w)图像上表现为高信号区,可清晰识别;然而,医生缺乏工具来分割和量化这些T2w高信号区域的体积。这不仅阻碍了严重程度的量化,也阻碍了脑水肿生长和病例鉴别的研究。 脑膜瘤是继神经胶质瘤之后第二常见的中枢神经系统原发肿瘤。其临床表现从静止到严重残疾差别很大。手术切除是那些有归因症状或肿瘤生长的患者的标准治疗方法。肿瘤近邻重要功能区区或位于手术困难的区域是容易令人痛苦的发病率,甚至死亡。因此,必须在手术干预的优势和相应的风险之间取得平衡。 在过去的30年里,立体定向放射外科(SRS)已经成为治疗中枢神经系统病变的一种有效的替代治疗方法。大量研究报道了SRS治疗脑膜瘤的良好效果。考虑到放射学反应和最小的放射副反应(ARE),目前的共识是将SRS用于小的、深部的和/或无症状的肿瘤。 ARE是SRS治疗之后的普遍现象。基于肿瘤周围高信号表明脑水肿的突出特征,最好使用T2加权(T2w)磁共振成像(MRI)或液体衰减反转恢复(FLAIR) MRI来评估表型。脑水肿的临床表现从无症状到明显的残疾不等。脑水肿的局部症状取决于受累的功能区域,包括运动无力、感觉障碍或语言障碍。脑水肿的全身性症状包括头痛、意识障碍、癫痫发作或恶心。AREs相关症状的治疗包括类固醇或贝伐单抗的临时疗程,或在严重病例中手术减瘤体积。 在T2w MRI脑扫描中,肿瘤周围脑水肿可通过高密度区清晰识别;然而,医生缺乏一个客观的工具来确定这些区域的体积。这些感兴趣的区域的体积分析通常由神经放射影像学家进行;然而,这个过程是漫长的,结果往往是不可复制的。从临床角度来看,脑水肿体积和症状表现之间的可疑相关性(基于轶事发现)可能潜在地用于预测长期神经预后。尽管如此,如果医生要有效地治疗这些困难的病例,他们需要早期发现ARE的迹象。 本研究的目的是使用基于深度学习的模型自动分割和量化放疗后脑水肿。我们的发现为提高脑水肿分割的准确性和评估放射治疗对周围脑组织的长期影响迈出了有希望的一步。 方法: 在本研究中,我们训练了一个基于Mask区域的卷积神经网络(Mask R-CNN)来代替人工预处理来指定感兴趣的区域。我们还将迁移学习应用到DeepMedic深度学习模型中,以促进图像中脑水肿区域的自动分割和量化。定量结果用于探讨GKRS治疗脑膜瘤所致脑水肿的效果。 主题 本研究收集台北荣民总医院21例患者的MRI资料。这包括154次定期扫描(每位患者1至16次扫描)。脑膜瘤放射外科治疗后脑水肿平均体积为15.61±16.98 cm3,范围为0 -139.66 cm3。注意,24次扫描显示水肿体积小于2 cm3,由于勾画困难或其他训练相关原因被排除。从训练和验证数据集中剔除这些数据后,平均体积为18.24±17.11 cm3,范围为2.01 ~ 139.66 cm3。患者平均年龄为63.5±9.1岁,43-85岁。所有扫描随机分为训练集、验证集和测试集。为了保证三个数据集的独立性,每个患者只被纳入一个数据集。这防止了相同的跟踪扫描出现在不同的集合中,从而确保模型没有使用以前训练过的脑水肿模式进行测试。最后,我们将数据集划分为5个相互排斥的子集。在每次迭代中,4个子集被组合起来进行训练和验证,而剩下的子集被保留为测试集。这个过程重复了五次,每个子集作为测试集一次。对五个测试集的最终性能取平均值。本研究已获台北荣民总医院机构伦理审查委员会批准(2018-07-019 C)。 磁共振成像协议 放射外科治疗后病灶周围脑水肿的改变,在磁共振T2w图像上表现为高信号区,与正常扫描明显不同。为了增加数据的多样性,以增强模型对过拟合的鲁棒性,我们导入了几种MRI扫描仪的图像,这些扫描仪在不同的扫描参数下工作:重复时间= 2050-8854.7 ms,回波时间= 82.3-140.8 ms,视场= 70-100 mm,翻转角度= 90-180,平均次数= 1-4,采集次数= 0-4。T2w图像在尺寸和体素大小方面也有所不同。 算法 为了提高深度学习模型的性能,我们采用了迁移学习,这比开发新模型更方便、更经济、更高效。如图1所示,T2w图像生成脑水肿的分割过程分为3步:(1)MRI预处理,(2)脑实质提取,(3)对脑水肿进行分割量化。下面的小节将详细介绍每个步骤。该模型在配备英特尔CoreTM i7-10700 K CPU (3.80 GHz)和16GB RAM的个人电脑上运行。使用Nvidia RTX 3070Ti具有8GB RAM的GPU对分割网络进行了18小时的训练。 ![]() 图1。脑膜瘤放射外科治疗后脑水肿分割模型流程图 磁共振成像预处理 对T2w图像进行MRI预处理,提高计算效率,增强神经网络的图像分析能力,以便提取尽可能多的病变相关信息。预处理包括Z-score归一化、体素大小重采样和图像大小调整。 T2w强度归一化旨在增强结果的鲁棒性和可靠性,并通过减少评级间偏差来加速收敛。所有扫描都进行体素大小重采样至0.47 × 0.47 × 1.5 mm3,以便在体素水平上进行分割。为了构建更复杂的深层网络,我们增加了Z轴方向上的切片数量。换句话说,我们在预处理期间沿着Z轴扩展了输入体积大小,通过在每个样本中包含额外的相邻切片来为3D分割模型提供更多的上下文信息。 这种方法旨在促进捕获相邻切片之间脑水肿的空间特征,这已被证明可以改善体积医学成像任务中的分割性能。我们还执行了图像大小调整,以删除多余的背景信息,可能包含来自扫描仪的噪声伪影。 数据增强 在本研究中,数据增强是指通过对现有图像进行变换来生成额外的训练样本的过程,而不是从不同的切片位置获得新的图像。 我们对每张T2加权图像应用以下增强技术: 亮度调整(对比度增强):随机调整图像强度以模拟扫描条件的变化。 弹性变形:非线性弹性转换应用于模拟细微的解剖变化和扫描仪引起的扭曲。 这些增强技术独立应用于每个图像切片,从而产生具有轻微变化的同一图像的附加版本。注意,这些增强技术独立应用于每个图像切片,从而产生具有轻微变化的同一图像的附加版本。请注意,这些操作不会以任何改变解剖结构的方式影响体素信息。相反,我们引入了小的变化来提高分割模型对未知数据的鲁棒性和泛化性。 弹性变换作为一种数据增强方法的有效性可归因于它对原始医学图像生成时发生的自然变化的模拟。位置、角度和扫描仪参数的变化通常会导致轻微的拉伸或其他形式的变形,因此在不同的筛查下,任何医学图像的外观都可能有所不同。尽管如此,这种类型的扭曲不应该影响病变的检测和识别。许多研究人员已经报道了弹性变换在数据增强变化建模中的功效。 如上所述,变形是通过生成均匀分布的随机位移场Δx(x, y) = rand(-1,1)和Δy(x, y) = rand(-1,1)来产生的。表达式rand(- 1,1)表示从[- 1,1]范围内均匀抽样的随机数。它是一个无量纲值,不直接对应于以毫米为单位的物理位移。相反,该随机值用于生成弹性变形数据增强的位移场。 位移场用高斯滤波器进行卷积(由弹性系数σ调节),最后的位移用因子α进行缩放。这些参数以体素为单位确定变形的物理程度。例如,位移值Δy = 1表示在y方向上位移1体素,而不是在物理空间上位移1毫米。实际位移以毫米为单位取决于图像中的体素大小,重采样后为0.47 mm × 0.47 mm × 1.5 mm。 脑实质提取 为了提高脑水肿分割模型的效率和准确性,我们使用Mask R-CNN模型生成以实质脑组织为兴趣区域的脑mask,用于网络建模(Matterport, Inc.(2018))。加州森尼维尔[在线]。: https://github.com/matterport)。 Mask R-CNN是一种像素级目标检测和实例分割模型,赢得了2016年Common Objects in Context (COCO)挑战赛。模型架构基于Fast/Fast R-CNN[17,18]和全卷积网络。该模型能够以像素为单位对物体进行分类,并同时检测多种类型的物体进行分割,结果以语义分割掩码的形式呈现,准确率非常高。在脑mask提取阶段,该方法在模型训练和推理方面也非常高效。Mask R-CNN框架可在GitHub (https://github.com/matterport)公开获取。 本研究共使用4049张T2w图像进行脑实质提取。这包括训练集中的2994张图片,验证集中的710张图片,测试集中的345张图片。统计参数映射12 (SPM12, Wellcome Trust Centre for Neuroimaging, University College London, https://www.fil.ion./spm/software/spm12/)]用于生成脑mask标签,手工填充缺失部分。通过临床医师评估的结果作为后续分析的金标准。 脑水肿分割 DeepMedic是一种多尺度3D深度卷积神经网络,具有3D全连接的条件随机场,专为3D医学图像的分割而设计。(2019)。英国牛津大学。(在线)。: https://github.com/deepmedic)。当应用于MRI扫描时,该模型已被证明在与创伤性脑损伤、缺血性中风和脑膜瘤相关的病灶分割方面非常有效。该模型还获得了2015年脑肿瘤图像分割(BRATS)和2015年缺血性脑卒中病灶分割(ISLES)的优胜。DeepMedic架构基于多尺度深度卷积神经网络和完全连接的条件随机场,在分割阶段非常有效地去除误报。输入采用两个并行卷积通道提取与病灶相关的图像特征,在多个尺度上捕获局部细节和大规模轮廓信息。类不平衡可以通过全卷积网络的密集训练来缓解。DeepMedic框架在GitHub (https://github.com/deepmedic)公开可用。 在本研究中,我们使用DeepMedic模型作为主要的水肿分割工具。利用迁移学习对权重进行调整,利用训练超参数对T2w图像的水肿进行分割和量化。DeepMedic处理3D MRI数据的能力允许沿z轴合并图像特征,用于评估放射治疗对脑膜瘤周围脑组织的长期影响。 表现评估 本研究使用三个常见的评估指标来评估分割模型的准确性,基于其区分自动分割结果和基础事实(放射科医生手动划定)的能力。这些指标包括Dice相似系数(DSC)、准确率和召回率。该分析基于混淆矩阵的四个元素:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。 本研究使用的定义如下: 真阳性(TP):由模型和放射科医生标记为水肿的体素。 假阳性(FP):由模型标记为水肿的体素,而不是由放射科医生标记的。 真阴性(TN):由模型和放射科医生标记为非水肿的体素。 假阴性(FN):一个体素被模型标记为非水肿,但被放射科医生识别为水肿。 如果一个体素的标签(水肿或非水肿)与放射科医生确定的基础事实相匹配,则认为它是正确分割的。DSC测量两个样品在形状、面积和位置上的相似程度。精确度评估积极预测实际为真的概率,强调预测积极结果的准确性。召回评估模型正确识别实际阳性病例的概率,重点关注真阳性预测的准确性。 综合起来,这些指标可以检测分割模型的预测是否与现实相符。 结果: 我们研究了21例接受GKRS治疗的脑膜瘤患者,基于154例定期追踪的T2w扫描。从这一组中,我们选择了130次扫描随机分配到训练集(80次扫描)、验证集(30次扫描)和测试集(20次扫描)。T2w图像中脑水肿的实际范围由临床放射科医生手动标记,作为监督学习的金标准。训练模型的任务是对测试集进行分割,以便与手动分割结果进行比较。在这些比较中,Dice的平均相似系数为84.7%。 人口统计 该研究共招募了21名患者。该样本中女性占多数(n = 17,81)%). 临床表现时的平均年龄为63岁,范围从43岁到81岁。在这个系列中,有相当一部分患者在没有任何症状的情况下被偶然诊断为脑膜瘤(n = 8,38)%). 其他可归因的疾病包括头痛(n = 6,29)%), 眼球运动问题(n = 3,14)%), 听力问题(n = 3,14)%), 以及癫痫 (n = 1, 5%)。 所有病例都涉及孤立的肿瘤,因此这一人群总共产生了21个脑膜瘤,67% 位于脑实质深部(颅底, n = 10; 桥小脑角, n = 2; 天幕, n = 1; 脑室内, n = 1). 基线时平均肿瘤大小为7.03 cm3,范围为1.60 ~ 15.92 cm3).表1总结了临床表现和影像学表型。 表1本研究21例脑膜瘤患者的特征 ![]() MRI扫描用于脑膜瘤的体积分析。注意,脑膜瘤通常可以通过造影剂增强。通过对比后T1加权MRI扫描可以清楚地描绘SRS的靶体积。这就可以用来指导剂量给药计划。在该系列中,边缘剂量落在11.5至13Gy的相对狭窄的谱内。从最后一次SRS治疗到最大脑水肿的平均时间为13个月,跨度为3.3至64个月。最大计算脑水肿体积范围为1.40 ~ 139.66 cm3。SRS治疗参数和结果列于补充表1。 自动脑实质提取 采用五重交叉验证评估Mask R-CNN模型在脑实质提取中的性能。该模型获得了持续的高性能,平均Dice相似系数(DSC)为94.98%, 全折叠的召回率为92.51%,准确率为97.89%。补充表2给出了每个折叠的详细结果(recall of 92.51%, and precision of 97.89% across all folds. Detailed results for each fold are presented in Supplementary Table 2.) 对脑实质的正确提取进行体素定义。如果一个体素被模型分类为脑实质,并且与放射科医生手动标记的ground truth mask中的相应体素相匹配,则认为该体素提取正确。补充图1展示了使用Mask R-CNN提取脑实质的演示。 自动水肿分割 DeepMedic模型在水肿分割方面的性能也通过五倍交叉验证进行了评估。各褶皱的平均Dice相似系数(DSC)为80.51%, with a recall of 75.20% and precision of 88.46%. Detailed performance metrics for each fold are provided in Table 2. 表2 所提模型在脑水肿分割中的五重交叉验证结果。 ![]() 在交叉验证之后,本研究中使用的最终模型是根据在测试集上达到最高DSC的折叠来选择的。这个模型是未来应用和推理的基础。图2展示了DeepMedic对水肿的分割。 ![]() 图2脑水肿分割结果:(a) T2w图像,(b) Ground truth分割(红色表示),(c)自动水肿分割(绿色表示) 脑水肿进展 所有的扫描数据在三年的时间里每隔六个月被追踪一次。脑水肿和脑膜瘤体积正常化后,绘制进展图(图3),显示GKRS后脑水肿的变化。通过自动分割量化的水肿量趋势与手动标记密切匹配。观察到水肿量在GKRS后达到峰值,并在18或24个月后趋于平稳,这是一个有趣的发现,与我们的预测非常吻合。这可能是一个有价值的模型,用于预测放射外科治疗后局灶周围脑水肿的长期变化。它还可以比较患者之间的水肿严重程度。 图3。GKRS治疗后水肿的进展(手动与自动评估)和用于统计分析的扫描次数。 ![]() 讨论: 基于连续成像的肿瘤周围脑水肿的体积分析为跟踪颅内状况提供了丰富的客观数据。Yen等人提出了SRS肿瘤后ARE分层的半定量分级系统:I级(轻度影像学改变,无肿块占位效应),II级(脑沟消失或脑室受压),III级(脑中线移位)。 肿瘤周围脑水肿体积的动态变化可以作为临床轨迹的指标,指导临床决策选择干预措施(如类固醇或手术减压)。很明显,需要找到方法来识别有SRS肿瘤后ARE风险的患者。T2w MRI扫描提供了ARE最清晰的征象,高强度信号表明脑水肿改变。几十年来,脑水肿体积一直由放射影像学专家手动计算;然而,这一过程繁琐,耗时,并受到变化的影响,特别是在病变可见性差的情况下。 在目前的研究中,我们开发了一种深度学习算法,用于脑膜瘤伽玛刀放射外科(GKRS)治疗后脑水肿的自动分割和量化。 在实验中,所提出的深度学习模型获得了很高的分割精度,可与放射影像科医生的人工描绘相媲美。尽管如此,我们观察到分割失败在水肿体积小(< 2 cm³)或脑水肿区域不规则和边缘不清的情况下更常见。这些模式表明,该模型可能与微妙或不明确的水肿边界作斗争,这是医学图像分割中已知的挑战。 成功的预测更可能出现在较大的、界限清晰的水肿病例中,这在T2加权图像中提供了更清晰的强度对比。纵向扫描的一致图像质量也增强了模型性能,减少了分割过程中的可变性。纵向分析显示,水肿量通常在GKRS后约13个月达到峰值,并在24个月后趋于稳定。 准确的体积评估是至关重要的,因为与肿瘤体积不成比例的大水肿病例可能需要更密切的监测和早期干预。在某些病例中,放射外科治疗后脑水肿体积达到肿瘤体积的600%(见图3)。这些病例伴有明显的临床症状,如运动无力、头痛或认知障碍,需要进行药物干预,如皮质类固醇治疗。这与先前的观察结果一致,表明自动容量评估可以增强临床监测和决策。 医生通常会遇到易患SRS治疗后进展性ARE的患者,这通常需要积极的干预。在对脑膜瘤行SRS治疗的患者的回顾性研究中,Sheehan等报道,肿瘤体积达到峰值的时间间隔可用于区分短暂性脑水肿(18个月时达到峰值)和进行性脑水肿(36个月时达到峰值)。这些发现强调了SRS治疗后纵向临床和影像学随访的重要性。 所提出的深度学习模型能够及时提供可靠的分割结果,为临床决策提供依据。虽然这项研究只关注脑水肿的分割,但潜在的自动分割技术可能会扩展到其他应用,例如脑膜瘤(最常见的原发性脑肿瘤)或其他肿瘤相关的脑水肿病例,从而增加其临床实用性。 尽管取得了令人鼓舞的结果,但本研究仍存在各种局限性。首先,小样本量和颅底肿瘤的优势可能会限制推广。其次,该模型是使用来自单个医疗中心的数据集进行训练的,当应用于来自其他机构的数据时,这可能会影响性能。未来的工作将集中在扩展数据集,在多中心数据上验证模型,以及集成其他成像模式以提高鲁棒性。 结论: 提出的放射外科治疗后脑水肿自动分割与定量方案效果良好,适用于预测模型的开发。 本研究训练了两个不同的深度卷积神经网络,目的是将分割过程划分为不同的功能。实验结果证明了该方法的可行性、可靠性和有效性。颅骨和头皮剥离过程的自动化是解释医学图像的关键步骤。在MRI扫描中对不同病变进行分割可以促进模型的建立过程,而脑水肿的准确分割对于量化放射外科治疗对脑膜瘤周围组织的长期影响至关重要。本研究中提出的全自动分割过程提供了与经验丰富的专业人员相当的准确性。 |
|