一项通过机器学习对动脉瘤性蛛网膜下腔出血患者出现脑血管痉挛后行挽救治疗的倾向评分匹配分析

医贰叁Doc 2021-08-03

展开全文

迟发性脑缺血（DCI）是动脉瘤性蛛网膜下腔出血（aSAH）患者常见的并发症之一，多与SAH后动脉痉挛（aVSP）相关。挽救治疗虽被推荐用于上述患者，但仍缺乏强有力的随机临床试验证据。来自SAHIT协作组的Michael L. Martini等人对来自于SAHIT试验的1532位发生aVSP或DCI患者进行了倾向评分匹配的机器学习建模，评估了该类患者3个月的良好预后是否与行挽救治疗相关。结果于2021年7月2日在线发表在J Neurosurg。

PMID: 34214980

DOI: 10.3171/2020.12.JNS203778

研究背景

迟发性脑缺血（DCI）是动脉瘤性蛛网膜下腔出血（aSAH）的常见并发症，与经血管造影和经颅多普勒（TCD）发现血管痉挛（aVSP）密切相关。对于发生aVSP或DCI的患者，建议采用挽救治疗，包括球囊血管成形术、动脉内输注血管扩张药物和诱发高血压。尽管这些疗法已经使用了40多年，但几乎没有证据表明它们是安全有效的。大多数使用这些药物的证据均来自单中心少数患者的回顾性研究。此外，少数挽救治疗的随机对照试验（RCT）未发现其对临床结局的影响。这些研究未观察到获益的潜在原因可能为结果确为阴性、结果测量的不敏感、患者选择和试验设计方案欠佳。此外，对患者和疾病特征的不当理解可能影响不同挽救形式的结局，对没有aVSP和DCI不良预后风险的患者进行挽救治疗，便无法从中获益。例如，一项诱发性高血压的随机对照试验发现，这种治疗使严重不良事件的风险增加了一倍，并且对临床结局没有影响。一个可能的原因是，诊断为DCI但没有脑缺血症状的患者也被包括在内，尽管理论上他们不能从挽救治疗中获益。因此，SAH管理中的一个主要挑战是了解哪些特征和治疗方案与SAH后血管痉挛的良好或不良结局相关。

为了定量调查不同患者风险因素对功能结果的影响，并深入了解哪些患者可能从挽救治疗中获益，作者对蛛网膜下腔出血国际试验者（SAHIT）数据库中多个中心收集的个体患者数据进行了前瞻性分析。本研究的主要目的是使用新的基于博弈论的可解释机器学习（ML）（补充性方法）和倾向性评分匹配分析方法，以确定行挽救治疗与SAH后血管痉挛的3个月良好预后是否相关，并进一步确定那些更可能从挽救治疗中获益的患者群体以及其预后相关的因素。这些可解释的ML技术具有识别重要变量、潜在模糊变量的交互作用以及数据模式的优势，这些变量有助于研究人员发现使用传统统计方法不易发觉的患者结局。

研究方法

✦ 数据源

该研究数据来源于SAHIT库中的9项研究：①Clazosentan(内皮素受体拮抗剂)用于改善SAH后发生的神经缺血和梗死的试验（CONSCIOUS-1），这是一项2期RCT，患者在SAH后随机接受安慰剂或三倍剂量的Clazosentan；②SAH后的白蛋白研究（ALISAH），一项多中心、非盲、剂量递增试验，该试验中患者于蛛血后接受不同剂量的人血白蛋白；③蛛网膜下腔治疗数据库（DSAT），一个单中心回顾性研究，收集了该中心临床分级差的SAH；④海因里希Hein大学（HHU）在德国进行严重SAH后行脑室内注射纤溶药物和低频旋转的非盲2期RCT；⑤蛛血后使用尼莫地平微粒以降低其毒性并增强疗效的研究（NEWTON-1），一项多中心、非盲、1/2a期RCT，用于确定蛛血后尼莫地平缓释进入脑室内的最大耐受剂量；⑥以及其他4项前瞻性3期随机对照试验的数据，这4项研究了甲磺酸替拉扎特的疗效（Tirilazad研究）。之所以选择这些研究，是因为他们均使用了当前公认的aVSP和/或DCI这些术语、挽救治疗并评估了3个月时的临床结局。尽管每个试验的实验组和对照组都包含在数据集中，但值得注意的是，本研究中的随机对照试验并未显示其干预措施的治疗效果。此外，所有纳入的随机对照试验均未显示与各自治疗组的治疗相关的具有统计学意义的严重不良事件，也未说明选择偏倚的任何证据或考虑。如果SAH后出现血管痉挛（脑血管造影或TCD证实）或DCI，并且记录了3个月的结果，那么这些数据完整的患者被纳入本研究。

✦ 变量

收集了基线入院特征，包括格拉斯哥昏迷评分（GCS）评分、世界神经外科学会联合会（WFNS）评分、Fisher评分和改良Fisher评分。动脉瘤数据包括动脉瘤大小（按<15 mm、15-24 mm或≥ 25 mm分类）和位置，载瘤动脉是大脑前动脉、颈内动脉（ICA）、大脑中动脉或后循环动脉，治疗动脉瘤的手术方式和SAH后的时间（手术时间）。

同时，还记录了血管痉挛和DCI特征以及并发症：1）包括术后神经功能恶化的天数，aVSP是否严重（定义为与基线相比狭窄>50%），血管痉挛是否表现出症状（DCI），血管造影、TCD、CT灌注或结合这些检查证实血管痉挛，以及出现脑梗塞。另外还包括头颅CT显示中线移位、脑积水、脑室内出血、脑水肿和脑内血肿。2）SAH并发症则包括中枢神经系统感染、尿路感染、肺炎、肺水肿和发热。3）同时记录实施挽救治疗的患者的管理数据，包括血管痉挛的预防性治疗、抗惊厥药物的使用以及动脉瘤修复术后的治疗。挽救治疗为介入治疗（包括血管成形术和动脉内注药）或非介入治疗（包括3H治疗——诱发高血压、高血容量或血液稀释[即血流动力学治疗]）。3个月时的临床结果用格拉斯哥预后量表（GOS）评分进行描述，GOS评分为4-5分认为是良好功能结局。每项研究中血管痉挛的确定均来自研究者的意见以确保血管痉挛的诊断是由患者的临床表现决定的，因为是否为患者提供挽救治疗依赖于研究者的直觉。当然，每项研究都有明确的检测血管痉挛的方法，包括通过血管造影（CONSCIOUS-1、NEWTON-1、DSAT、HHU、Tirilazad）；TCD（ALISAH，CONSCIOUS-1，Tirilazad）；CT灌注（HHU）；和/或症状学（Tirilazad、ALISAH、CONSCIOUS-1、DSAT）。

✦ 预处理、ML和交叉验证

通过使用标准ML实践，将量化指标标准化、标度为单位方差，并归一化为单位常模。使用标签编码器从分类变量创建二进制。接下来，对于患者子集中随机缺失的数据，使用多变量特征插补将这些值建模为其他特征的函数。选择了10个插补集，得出了缺失值的估计值和置信区间，并进行了敏感性分析，以确定结果是否令人满意（补充表1）。在数据预处理后，通过使用各种ML分类器算法对挽救治疗和3个月GOS进行建模来预测结果。结合对比校准图（补充图1）的结果，最终实现了梯度增强算法，学习复杂的数据结构，包括高阶交互和非线性关系。在模型训练之前进行k倍交叉验证（k=5），随机分割研究群体样本，包括内部模型验证集（75%）以确保模型稳定性，最终用于模型评估集（25%）。在内部验证集中，使用4个折叠中的每一个作为训练数据对模型进行训练，然后使用剩余的折叠数据对模型进行验证。

为研究人群中的个体患者构建模型，然后进行聚合以进行人群水平推断。使用ROC曲线和曲线下面积评估模型预测能力。绘制校准曲线，以确保预测概率与每类概率的预期分布相匹配。使用Python 3.7中的scikit learn 0.23.2包进行数据预处理、ML建模和交叉验证。

✦ 倾向评分匹配与统计分析

以接受或未接受挽救治疗的患者之间基线特征的差异进行倾向评分匹配（补充表2和表3）。logistic回归模型用于估计个体患者的倾向评分。根据年龄、性别、种族、入院神经功能评分、入院改良Fisher评分、入院诊断、SAH到手术的时间、高血压、高脂血症、DCI/脑梗塞、严重aVSP、抗惊厥药的使用、SAH特征和脑水肿对挽救治疗进行回归分析。根据已知的临床意义或在挽救治疗分配中的重要性选择变量，通过预测挽救治疗的模型中增加的SHAP重要性来证明。在确认接受和未接受挽救治疗的患者之间的倾向评分分布有足够的重叠后，通过使用0.1标准差的卡尺严格筛选，在倾向性得分的logit上对队列进行1:1的匹配。

在基线和合并症、动脉瘤和蛛血特征、血管痉挛特征、并发症和临床结局方面，对接受和未接受挽救治疗的患者进行配对比较。分类变量采用卡方检验和Fisher检验进行比较，而连续变量采用t检验或Wilcoxon秩和检验进行比较。在抢救治疗和良好结果之间进行单变量回归分析。双尾p值<0.05为有显著性差异。所有统计分析均在SAS 9.4（SAS研究所）中进行。

研究结果

我们分析了1532例发生aVSP或DCI的患者。在这些患者中，470名（31%）出现严重aVSP；经TCD显示血管痉挛1254例（82%）；652例（43%）经历过DCI/脑梗死；823例（54%）接受了挽救治疗；890名（58%）的3个月GOS评分为4或5分（见表1）。

表1.倾向评分匹配队列——患者入院时的基线人口统计、共病、神经功能分级、动脉瘤、蛛网膜下腔出血、血管痉挛和治疗特征

左右滑动查看更多

✦ 预测挽救治疗的实施

根据ROC曲线比较计算得出，梯度增强算法是根据挽救治疗前的数据预测患者是否接受任何挽救治疗（图1A）、介入性挽救治疗（图1B）或非介入性挽救治疗（图1C）概率等的众多算法中最优的算法（AUC分别为0.88、0.87和0.85）。校准曲线表明，梯度增强模型得到了很好的校准，不需要通过Isotonic或Sigmoid回归进行额外校准（补充图1）。在为单个患者构建是否行挽救治疗的预测模型后，我们计算每个患者衍生模型的SHAP值，并使用它们确定整个研究人群的大体特征对其重要性排名（图2）。我们发现，从蛛网膜下腔出血到入院的时间是决定哪些患者接受挽救治疗的最重要特征，在蛛网膜下腔出血到入院的时间间隔较长后，预测的可能性较低。相反，白人、弥漫性重度蛛网膜下腔出血、高脂血症和无脑水肿的患者接受挽救治疗的预测几率较高（图1D）。相比之下，介入治疗与非介入治疗的决定取决于不同的患者和治疗特点。如果患者在入院时接受预防性苯妥英钠或具有更高的改良Fisher评分（图1E），则更有可能实施介入挽救，而在没有脑水肿、存在持续弥漫性SAH、有更多共病的情况下，更可能决定给予非介入挽救治疗（图1F）。值得注意的是，DCI/脑梗死的存在仅在决定实施任何抢救治疗时起到了轻微的作用，对模型预测的影响相对较弱（图1D）。

图1 模型组的ROC曲线预测任何形式的挽救治疗（A）、介入性挽救治疗（B）和非介入性挽救治疗（C）的实施概率。ROC曲线下面积数值显示在右下方。虚线表示ROC曲线下面积为0.50的随机机会。SHAP总结图显示了哪些特征为预测任何形式的挽救治疗（D）、介入挽救治疗（E）和非介入挽救治疗（F）的最重要特征。每个患者衍生模型均计算了每个特征的SHAP值，该模型由单个点表示，其颜色基于特征值。红点表示该个体患者的高特征值，而蓝点表示低潜在特征值。对于二进制分类特征，“低”特征值表示其不存在，“高”值表示其存在。将每个患者每个特征的SHAP值可视化，直接显示了每个特征的值（点颜色）如何对预测模型输出的影响（x轴上的左移或右移）。POD=术后一天。

✦ 通过挽救治疗状态预测3个月GOS评分

接下来，我们试图使用类似的方法来了解所有经历过蛛网膜下腔出血后血管痉挛的患者以及接受挽救治疗的患者的良好结局的决定因素。ML建模再次表明，梯度增强算法在预测所有血管痉挛患者的良好预后方面有最佳结果（C=0.80；图2A），且挽救治疗子集（C=0.82；图2B）显示了该算法的良好预测能力。计算每个患者衍生的功能结局模型的SHAP值，并对其进行排序，结果显示，没有DCI/脑梗塞、WFNS分级良好（低）、年龄较小、入院时GCS总分良好（高）是所有血管痉挛患者预测良好功能预后的最重要特征（图2C）。在挽救治疗子集中，预测良好功能结局的重要特征在几个患者特征方面有所不同。例如，尽管无DCI/脑梗死、GCS总分良好和年龄较低仍然是功能预后良好的最重要预测因素，但术后一天神经功能恶化、无肺炎、无高血压病史、颈内动脉瘤、无抗惊厥药物的使用等因素，对于预测挽救治疗患者良好功能结局也变得非常重要（图2D）。

图2 模型组的ROC曲线预测所有血管痉挛患者（A）和接受挽救治疗的血管痉挛患者（B）的良好功能结果（3个月GOS评分4或5）。SHAP汇总图显示了预测所有血管痉挛（C）患者和接受挽救治疗（D）患者良好功能结局的最重要特征。红点表示个体患者的高特征值，而蓝点表示低特征值。对于二进制分类特征，“低”特征值表示其不存在，“高”值表示其存在。

✦ 按挽救治疗类型预测3个月GOS评分

我们应用ML来研究接受介入或非介入性挽救治疗患者的3个月GOS评分的影响因素。梯度增强算法在预测介入治疗（C=0.83）和非介入（C=0.82）挽救治疗同样有良好的表现（图3A和B）。基于SHAP值进行特征重要性排名，阐明了挽救治疗的类型在最重要的预后预测因素方面的一些差异。例如，与非介入挽救治疗相比，较低的收缩压和舒张压（BPs）和动脉瘤术后更长天数发生血管痉挛对于预测介入挽救后有3个月良好GOS评分更为重要（图3C）。相反，入院时良好的WFNS评分和无肺炎被列为非介入挽救的3个月后良好GOS评分的重要预测因子，却不是介入挽救治疗的重要预测因子（图3D）。

图3 模型组的ROC曲线预测接受介入挽救治疗（A）和非介入挽救治疗（B）的血管痉挛患者的良好功能结果（3个月GOS评分4或5）。SHAP总结图显示了预测接受介入性挽救治疗（C）和非介入性挽救治疗（D）的患者良好功能结局的最重要特征。红点表示个体患者的高特征值，而蓝点表示低基础特征值。对于二进制分类特征，“低”特征值表示其不存在，“高”值表示其存在。PCA=大脑后动脉；VA=椎动脉。

✦ 人群分层聚类法与交互效应

与重要性排名汇总图一致，分层聚类显示，无DCI/脑梗塞、入院良好WFNS分级、年轻、入院GCS高总分的亚群预测其良好功能结局的概率更高（图4，红色标签）。值得注意的是，聚类显示具有混合预测因素的亚群，并不总是具有良好功能结局。例如，研究者发现一组有DCI/脑梗塞的患者亚群，在3个月时GOS得分的预测概率仍然很高，可能是由于他们的其他属性，包括年龄较轻、WFNS评分良好以及从SAH到手术的时间较短（图4，下图）。相反，研究者也观察到一组WFNS分级良好但预测良好功能结局的可能性较低的患者亚群，可能是由于该组患者并发DCI/脑梗塞、后循环动脉瘤以及术后迅速出现神经功能恶化。

图4 使用SHAP值特征加权来量化患者相似性的人群分层聚类。上图：使用“力图（force plot）”确定每个患者的整体SHAP值。将整体SHAP值变高的特征（红色，表示良好临床结局的可能性较大）和将其变低的特征（蓝色，表示良好临床结局的可能性较低）整合得出预测使得该患者住院时间延长的SHAP值（例如，上图中为0.77）。下图：逆时针旋转力图90°，并对研究人群中的所有血管痉挛且3个月GOS评分为4或5的患者重复此过程，该图为所有患者的特征风险因素聚类全局图。具有高（红色）或低（蓝色）预测概率的患者亚群的共同特征如下图所示。GCS表示整个过程中GCS分数的变化。

在检查SHAP交互作用值时，作者发现年龄的交互作用最强烈、最一致。年龄与GCS语言评分、预防性高血容量和中线移位明显相关（图5）。这些分析表明，年龄和正常GCS语言分数相互作用，因此，与年轻患者GCS语言分数正常相比，老年患者GCS语言分数正常对预测良好的临床结局更为重要（图5A）。同样，年龄和预防性高血容量是相互作用的，因此，与未向年轻患者行预防性高血容量相比，老年患者若未接受预防性高血容量治疗其临床结局更不好（图5B）。最后，年龄和中线移位是相互作用的，因此预测中线移位的老年患者会比年轻患者有更糟糕的结局（图5C）。综上所述，通过交互作用的观察，因年龄对其他临床因素的调节作用，使其成为一个重要的变量。

图5 关键变量之间的交互作用影响3个月GOS评分为4或5的预测概率。SHAP交互作用值量化了变量之间的交互作用，并显示年龄和正常GCS语言评分（A）、高乳酸血症（B）和中线移位（C）之间存在强交互作用。红点表示存在与年龄相关的变量（包括GCS语言评分正常、预防性高血容量和中线移位），而蓝点表示不存在这些变量。将SHAP交互作用值设为y轴，患者年龄设为x轴，交互作用变量为点颜色）。该函数显示出了明显的趋势，突出了导致更大交互作用的患者特征。交互作用越强，则点的离散度越明显。（左右滑动查看更多）

✦ 倾向评分匹配

使用从ML模型中确定的重要变量以及临床公认的重要变量，我们生成了两个倾向评分匹配的队列，每个队列有385名患者，以确定挽救治疗对结局的影响。与整个研究人群中的许多基线差异（补充表2和表3）相反，匹配的队列在基线造影和共病以及动脉瘤、蛛网膜下腔出血和血管痉挛特征方面非常相似（表1）。挽救治疗队列中的150名患者（39%）和非挽救队列中的128名患者（33%）3个月GOS评分达到5（OR值1.28，95%可信区间0.95–1.72；p=0.10），表明是否行挽救治疗与最终能否良好恢复无统计学意义。然而，若使用3个月GOS评分4或5作为良好结局的评判指标，作者发现挽救治疗队列中的238名患者（62%）和非挽救队列中的192名患者（50%）达到此结果（OR 1.63，95%可信区间1.22–2.17；p=0.001），表明挽救治疗与中度残疾或良好恢复的增加有关（表2）。

表2 倾向评分匹配队列中患者的三个月GOS评分和OR值

讨论

SAH管理中最重要的挑战之一是了解哪些患者特征和治疗决定与其良好结果相关（表3）。在打开模型并用基于博弈论的解决方案概念解释其预测之前，我们试图通过大数据方法将预测性ML模型应用于大型患者数据集来解决这一问题。我们发现，在血管痉挛患者和接受挽救治疗患者的完整数据集中，DCI/梗死的存在是影响3个月GOS评分的最重要特征（图1）。先前的研究也表明，同时存在DCI和脑梗死与不良预后的相关性比aVSP更高，证实了这种基于机器学习（ML）建模预测方法似乎有效。尽管两组患者的其他一些特征（如入院GCS评分和年龄）也非常重要，但作者仍观察到了部分变量影响血管痉挛患者接受挽救治疗的3个月良好GOS评分，但在“全血管痉挛”患者组中没有这些影响变量。例如，没有共病和并发症（如高血压和肺炎）的患者，是良好临床结局的一个更重要的预测指标，特别是在接受挽救治疗的患者中（图2D）。总之，这些研究结果表明，DCI/脑梗死是SAH治疗中最重要的目标和预防事件，因为它与不良预后总是相关。因此，针对DCI/梗死患者的预防性或治疗性介入的临床试验应最能证明临床结局的改善。另外，我们的分析也表明，对有高血压病史的患者进行额外监测，预防或及时治疗新发肺炎，可能进一步改善接受挽救治疗患者的临床结局。同样，在老年人、GCS语言得分较低和中线移位导致更差结局之间观察到的负面交互作用效应（图5）也表明，在挽救治疗RCT中，具有这些特征组合的患者仍有临床获益的空间。

表3 总结各种患者队列中主要特征对接受挽救治疗和3个月GOS得分达到4或5的概率

本研究的另一个重点是决定个体接受血管痉挛挽救治疗的影响因素。尽管血管痉挛可以通过血管造影、TCD、CT灌注或症状学得知，但血管痉挛的确定最终取决于研究者的想法，是否给予挽救治疗无疑由研究者对患者临床情况作出决定。患者的临床症状和相关数据明确符合诊断是医生决定是否给予挽救治疗的基本因素。我们可解释的ML模型显示，尽管CT扫描上的SAH体积和神经系统后遗症（如脑水肿）是可能影响挽救治疗决定的重要因素，入院时WFNS评分和GCS总分在预测是否行挽救治疗时不太重要（图1）。鉴于入院时的神经状况被描述为早期脑损伤的指标和预后的重要变量，在决定是否实施挽救治疗时却并不考虑该因素，表明DCI可能并非由于早期脑损伤。值得注意的是，预测挽救治疗效果的最重要特征也因救援治疗的类型而异。在使用预防性苯妥英和入院时更高的改良Fisher评分的患者中，更有可能行介入性挽救，而在有脑水肿和SAH到手术的时间较短的患者中，更有可能行非介入挽救治疗。

最后，基于ML的倾向评分匹配分析显示，当被归类为中度残疾和良好恢复（GOS评分为4或5）时，挽救治疗与良好结果的几率增加相关。尽管目前已有证据普遍表明，通过血管内治疗和药物挽救治疗来扩张动脉或诱发高血压来降低aVSP发生，但仍需RCT的验证。目前尚无1级证据支持使用挽救疗法，且各中心对诱导性高血压和血管内治疗的方式差异很大。这项研究应用了一种新的倾向评分-匹配分析，该分析以基于ML的变量选择为指导，使用先前研究SAH的多个随机对照试验的数据，为支持挽救治疗应用的文献提供了另一组数据。然而，仍需要有明确患者群体和临床指征的规范随机对照试验，以自信地改变目前的挽救治疗模式。本研究提高了我们对挽救治疗后90天预后决定因素的理解，并可能有助于开发预后预测工具，帮助临床医生更好地预测挽救治疗的最佳适应症和临床结局。

研究的局限性：①尽管从多个高质量临床数据来源获取数据可能会提高作者的分析效能，但大多数研究已确定了纳入标准，这可能会限制其研究结果的外部有效性；②因该研究仅分析了临床数据集中的可用数据，其他影响挽救治疗决策和结果的因素可能因此未被分析；③因纳入的试验进行了多年，而SAH管理和临床实践随时间的变化无法避免；④因该分析为回顾性研究，故作者是阐明这些因素的相关性，而不是因果关系；⑤最后，即使倾向评分匹配也不能排除所有的治疗偏倚，因此也不能排除所有混杂因素。

结论

挽救治疗可能增加良好临床结局的几率，尽管无DCI/脑梗死是总体良好临床结局的最重要指标，但某些患者不存在共病和并发症（特别是高血压和肺炎），也可能是接受挽救治疗患者更好临床结局的重要预测因素。对DCI/脑梗塞患者行介入治疗，或对可能发生高血压和肺炎的患者行预防性治疗是否能改善最终临床结局，仍需该方面的临床试验研究来证实。同样，在老年人和GCS语言得分较低以及中线移位导致更差结果的负面交互作用也表明，这些患者行挽救治疗是否还有临床获益的空间仍需相关的RCT研究。