分享

实验室医学中的人工智能

 医学镜界 2022-07-09 发布于江苏

实验室医学中的人工智能


Cite this entry as:

Brinati D., Ronzio L., Cabitza F., Banfi G. (2022) Artificial Intelligence in Laboratory Medicine. In: Lidströmer N., Ashrafian H. (eds) Artificial Intelligence in Medicine. Springer, Cham. https:///10.1007/978-3-030-64573-1_312


本章的目的是介绍有关机器学习(因此人工智能)在实验室医学领域应用的主要文学来源,用适当的语言,临床化学家,医务人员等也可以理解。这一目标通过对该领域开发的主要研究工作的系统辩论来解决,其中临床任务定义明确,并实施了适当的统计或机器学习算法。将描述每项研究工作的主要结果,以强调和证明机器学习对实验室数据的可行性和可行性,以及机器学习模型解决诊断或预后任务的可靠性,然后支持医务人员的决策过程。

为了向非专家观众(在计算机和数据科学方面)提供更好的概述,将提供温和的介绍,关于机器学习是什么以及机器学习专家在日常工作中努力完成的工作。此外,还将讨论从专家系统过渡到机器学习系统的优势以及转向机器学习系统(在实验室医学领域)的一般好处。

介绍

本章将介绍和报告人工智能(AI)在实验室医学中的最新应用。特别是,机器学习(ML)是将要考虑的AI子领域。对ML技术产生这种兴趣的原因在于它们能够在几项任务上达到人类的表现,在某些情况下甚至优于它们。

实验室医学传统上用于应用技术和创新,包括自动化,机器人化和计算机科学[1].质量控制于60年前在临床实验室引入;数据自动从仪器传输到实验室信息系统在20世纪80年代被常规引入,并在随后立即发布远程信息处理。换句话说,程序的工业化是实验室完全自动化以及化学,免疫学,血液学和血清学与计算机科学之间的集成的特征,它是医院内外的常规和预期的途径。实验室医学是应用于医学的信息学技术的先锋;因此,实验室显然应该引领临床医学领域的人工智能项目。然而,这种方法在现实世界中得到了适度的应用,尽管专业人士的兴趣非常高。

在临床实验室的信息化和机器人化的早期阶段引入了一些简单的机器学习方法。例如,内部质量控制规则,最着名的是Westgard规则,被引入到独立仪器的软件或整个实验室自动化系统中。Bull算法也可以引用,基于一系列连续20个患者结果的加权平均值,特别适用于控制血液学仪器,其中某些参数非常稳定,具有低生物变异性:例如,平均红细胞血红蛋白浓度仅在明显和严重贫血中较低,在这种情况下,该值从算法中消除, 并且在罕见的病理条件下含量高,即球形红细胞增多症和冷凝集素。

临床实验室参与基于机器的数据评估的早期状态的一些其他例子是,当测量标本以控制超出警报范围的值时进行重新测试,以及反射,即当值超出参考范围时对标本进行其他测试,通常对甲状腺参数所做的那样。图像识别是多年前在用于沉积物评估的尿液分析仪器中引入的,也是在血液学系统中引入的,其中数据评估和载玻片制备之间的集成现在是一种常见的程序。

鉴于最近在高影响力期刊上发表的高知名度文章和社论(例如,[2,3]),似乎随着所谓的专家系统的衰落,ML已经在医学中获得了一席之地,并引起了医学研究人员和从业者对计算机科学这一子领域内预测方法的兴趣。

出于诊断和预后目的的分类、分割或异常检测任务的自动化可以改善医院设施提供的医疗服务,因为医生和医务人员可以依靠额外的指导,这些指导从数据证据中得出结论。此外,将机器学习应用于实验室数据的潜力值得本期刊的读者以及希望利用病理学和实验室医学中这种新的基于计算机的支持的医生科学家的更多关注。

ML在临床和基础医学研究中的更广泛使用反映在PubMed上索引并发表的论文的标题和摘要的数量上,与过去10年(2007-2017)相比,直到10年前(2006年),在过去十年中,从1000篇增加到略多于9000篇文章,增加了近十倍。在本章中,将以医生可以轻松掌握的术语介绍ML的含义,然后调查这种计算方法在实验室医学中的最新应用。

临床实验室确实为机器学习和人工智能做好了准备,也为整合不同的专业实验室做好了准备,这些实验室具有共同的方法,例如分子生物学,但具有不同的专业知识,例如遗传学,微生物学和病理学。

温和的介绍:什么是机器学习?

用非常笼统的术语来说,ML是关于机器学习的。更具体地说,ML是各种计算方法的总称,通过该方法,机器可以根据模型对给定任务的支持程度的度量来逐步构建准确的数据模型,这在医学中通常具有判别性,即分类,聚类或回归。正如这个词所说,分类是指对作为输入提供给模型的每条记录的识别其目标类或正确类别;另一方面,回归涉及连续变量的正确值的估计。最后,聚类是一种方法,它允许将不同的实例分组在一起,方法是根据它们的相似性将它们与组(即聚类)相关联。因此,有三个参与者:模型任务绩效衡量标准。在ML上下文中,通过模型,我们指的是数据集的功能表示,即可以绘制的任何映射的表示,以将数据集的某些部分绑定到特定测量尺度上的特定值。在判别分类任务中,比例尺可以是名义的,要么是序数,值通常是一个标签。另一方面,在判别回归任务中,尺度是区间或比率,预测值是指示某些数量的数字,例如肌酐水平。到目前为止,医学文献中描述的大多数ML模型都考虑了可能与单个临床病例相关的一组值与单个类别(例如,是/否或分类学中的一类)之间的功能映射,以支持诊断或预后。

ML的目标是通过将性能度量作为损失函数来降低(或增加,这取决于任务)来提高特定任务的模型性能。

为了说明这一点,让我们将这组值称为x:在预后决策任务中,该模型用于回答诸如“x是否代表(或与)受某种疾病影响的患者相关的值?”之类的问题。在受监督的ML上下文中,数据通常是描述不同维度或属性的不同情况的数据集,称为特征,并且人类专家已经与“正确”值相关联,我们称之为“y”。因此,用数据科学家喜欢的非常简洁的术语来说,ML模型使用y = f(x)等函数:这个函数的价值在于它能够为一些以前没有被人类专家分类的“x”产生正确的“y”,从而为分类任务提供帮助。数据科学家对机器(称为“学习者”)进行编程,以优化给定的模型(即,根据从目标群体中获取的给定未知x更准确地预测y),方法是自主和迭代地调整其参数,直到无法或应该实现进一步的改进:学习者应用于部分可用数据的过程, “训练数据”,没有人类程序员的直接干预,被称为学习,在这种情况下,机器学习。

机器学习在实验室医学中的应用概述

机器学习广泛用于生化开发,以及用于评估和解释基因组学、转录组学和蛋白质组学途径中的数据(例如,[4,5]),而在临床检验医学中,它已被应用于生物材料的经典生物标志物测试。最近已经为临床实验室目的描述了几个所谓的专家系统,获得了专利并进行了商业化。它们旨在评估血液学、尿液分析或临床化学中的特定数据,传统上基于预定义的决策树,其中包含逻辑规则和检查,以排除诊断假设或定义它们或建议进一步分析以完成诊断并支持决策。相比之下,ML是一种完全不同的方法,其中“规则”由机器学习。通常情况下,谈论显式规则是不合适的,因为预测以某种方式隐藏在模型的非线性参数中,这些参数会弯曲数据周围的决策边界。因此,很明显,ML在实验室医学中的应用应该得到支持,作为在更广泛的变革和创新过程中加强实验室组织和扩展实验室专家核心技能的一种手段。

支持前一句有几个原因。首先,实验室是当今医疗保健系统的重要组成部分。然而,尽管吞吐量高,周转时间短,但筛选数据以查找特殊感兴趣结果的能力已经下降,并且很少有测试是直接诊断的[6].其次,技术进步使专家系统功能和软件应用程序的集成成为可能,包括自动分析仪和实验室信息系统(LIS)模块[7].由于这种支持通常基于二分门槛或数据的刚性互斥,因此即使不是不可能,也很难获得精确或个性化的结果[8],这表明有明显的改进余地。第三,由于患者现在可以通过从其诊断提供者的Web门户下载来立即访问其实验室测试结果,因此对有意义的,可能的个性化参考限值的需求日益增加,并且需要解释精确的星号[6],指示异常或临界值的常规体征。最后,随着智能手机和基于微流体和微电子的创新生物传感器的融合,芯片实验室(LOC)和实验室医学相关模型的愿景开辟了机会[9].

在这种情况下,apomediation是指渐进式去中介化,其中传统的中介机构,例如向患者提供“相关”信息的医疗保健专业人员,在功能上被pomediaries所取代,即网络/组/协作过滤过程[10].ML系统可以被视为新的和“更聪明”的药剂,充当间隙填充器,分析患者无需全科医生或实验室专家干预即可访问的越来越多的诊断数据,然后仅在可能的积极或异常结果的情况下将患者分配给专科医生。这可以通过将患者的各种表型属性(即,除了体重指数[BMI],年龄,性别和种族)放在一起,或者更好的是,将患者与健康状况相关的过去基础值的历史考虑在一起来完成。在这种情况下,参考限值的概念将发生变化,ML通过利用和改进其他统计方法,可以帮助限制对参考限值或明显正常数据之外的值的误解,但也可以对某些条件进行诊断。

有些人想象一种基于ML的临床决策支持,通过预测相关的测试结果并提高多分析物测试结果集的诊断价值,可以帮助减少不必要的实验室测试[11],因此,降低了医疗保健成本,仅在美国,每年的预算总额为50亿美元[12].最后,越来越多的可用和负担得起的诊断测试类型产生了前所未有的数据解释和集成复杂性,需要新的管理技术。

实验室医学中的机器学习模型

在本节中,报告了几项研究工作,展示了ML模型在解决前面提到的实验室医学挑战方面的潜力。

林等[13]从临床叙述中挖掘概念,从电子病历中收集实验室值,以自动检测类风湿性关节炎。在尝试了一系列ML算法后,他们发现线性核支持向量机表现最佳,AUROC曲线为0.83,之后还考虑了炎症标志物(与没有实验室测试相比增加了6%)。

拉扎维安等人[14]收集了2005年至2009年间410万人的行政索赔,药房记录,医疗保健利用率和实验室测试结果,以评估2型糖尿病的预测ML模型。在与糖尿病发展相关的不同变量中,高转氨酶(ALT)浓度与最高比值比相关。在实验室测试中,最好的预测变量是糖化血红蛋白(HbA1c),葡萄糖,高密度脂蛋白胆固醇,二氧化碳和肾小球滤过率(GFR)。作者观察到,该研究还表明,行政数据如何成为人群健康管理和临床假设生成以发现风险因素的强大工具,并且这些数据可以帮助指导高危人群的干预措施。

在一项涉及757名患者的研究中,Nelson等人[15应用逻辑回归和他们称之为“相关性向量机”的ML模型,发现肌酐水平是创伤性脑损伤结果的明确预测因子,而葡萄糖,白蛋白和渗透压水平是预测因子,具体取决于所使用的模型。

迪里和阿尔拜拉克 [16]评估了应用于五项甲状腺功能障碍实验室测试数据的四个分类器的性能,区分甲状腺功能正常,甲状腺功能减退和甲状腺功能亢进的诊断。试验结果为:T3-树脂摄取试验、血清总甲状腺素、血清总三碘甲状腺原氨酸、基础促甲状腺激素(TSH),注射促甲状腺激素200μg后TSH值与基础值的最大绝对差。作者还使用蜘蛛网来可视化分类器性能,当数据具有两个以上的类时。贝叶斯分类器表现出最佳的整体性能,平均准确率为96%。

鉴于华法林的复杂特性,Liu等人[17]使用两种著名的实验室测试,丙氨酸氨基转移酶(ALT)和血清肌酐(SCr),结合有关华法林剂量,性别,年龄和体重的数据,建立了一个分类模型,可以预测华法林治疗的充分或不充分,并最大限度地减少药物间相互作用的几率。在对377名住院患者的分析中,他们比较了七种分类技术的性能,发现C4.5决策树和随机森林得分最高,并且“比临床医生的主观决定更准确地”预测了华法林的充分性。作者声称,这一结果显示了在临床实践中充分利用实验室测试结果的重要性,特别是由于收集准确实验室数据的相对简单性和低成本。

普京等人[18]将ML应用于实验室参数,通过21个深度神经网络的集合预测实际年龄,该网络开发并应用于50,000多个样本。他们发现,白蛋白浓度,其次是葡萄糖,最能识别出实际年龄。该集合确定了五个标志物(白蛋白,葡萄糖,碱性磷酸酶[ALP],尿素和红细胞)对于预测受试者年龄最有价值。

Dermici et al. [19]使用商业软件程序来训练ANN在大型大学医院的中心实验室中的应用,以便高效,快速,可靠地评估生化测试结果。将ANN应用于超过250,000个样品,以评估一组常规参数(钠,钾,钙,镁,葡萄糖,尿酸,氯化物,尿素,肌酐,天冬氨酸氨基转移酶,ALT,γ-谷氨酰转移酶[GGT],ALP)。将ANN的评估与七位不同专业知识的病理学家的评估进行比较。该模型的敏感性为91%,特异性为100%,K评分为0.95。K评分分析显示,七分之五的病理学家在评估模型判断时给出了非常高的一致性分数(0.81-1.00)。当要求重新评估专家的决定时,在与ANN评估进行比较后,病理学家在许多情况下显着更改了他们的报告,以增加人类与自动生成的报告之间的一致性。就ANN而言,从收到数据到发布报告之间的时间明显更短。作者得出结论,在相似的质量和适当性水平下,引入同样准确的自动支撑可以预期时间和相关成本的降低。

袁等[20]基于监督ML方法构建并评估了三个分类器,以区分阳性和阴性尿液样本。基于分类和回归树(CART),该模型在测试集上显示最佳结果,敏感性为86.0%,特异性为98.0%,AUC为94.3%,总体准确率为95.6%。结果表明,ML是构建尿液显微镜审查规则分类器的有价值的方法,可以补充其他报道的微观审查规则。

ML方法的倡导者肯定ML可能对预后有用,即预测疾病进化和进展;早期发现,当疾病仍处于早期无症状阶段时;和初级预防,以降低疾病发展的风险。预测方法基于回归模型,例如,用于预测ST段抬高型心肌梗死(STEMI)患者30天死亡风险的logistic模型,用于SCORE(系统冠状动脉风险评估)模型的Weibule模型以及应用于心血管疾病弗雷明汉风险评分的Cox模型。

戈德斯坦等人[21描述了一种用于心血管风险预测的ML方法,该方法使用1944例急性心肌梗死主要诊断患者的数据进行训练。作者使用在至少80%的患者(钙,二氧化碳,肌酐,肌酸激酶-MB,血红蛋白,葡萄糖,平均红细胞体积,平均红细胞血红蛋白浓度,血小板,钾,红细胞分布宽度[RDW],钠,白细胞)中测量的13个实验室参数,并计算了这些参数的中位数以及最小值和最大值,以获得医院死亡率的43个预测变量。在该数据集上训练的ML模型表明,钙和血红蛋白与梗死后死亡率之间存在非线性关系。作者采用五种ML方法来构建具有不同特征和性能的模型:变量具有相似的相关性,并且模型检测到二氧化碳(最小值),钙(所有测量值),血红蛋白(中值),钾(所有测量值)和白细胞(最大值)的高影响。

一个流行病学专家组报告了 ML 应用于生化和血液学检测的实例,包括证明 GGT 与肝功能检测(ALP、白蛋白、乳酸脱氢酶和转氨酶)之间的关系,通过使用丙型肝炎病毒增强乙型和丙型肝炎的预测,以及 RDW 与血红蛋白在贫血诊断中的相关性 [22].

Somnay et al. [23]在 11,830 例患者中,使用血清术前钙、磷酸盐、甲状旁腺激素、维生素 D 和肌酐水平作为原发性甲状旁腺功能亢进的预测因子。在测试的ML算法中,贝叶斯网络模型被证明是最准确的,正确分类了95%的原发性甲状旁腺功能亢进患者(AUROC 0.99)。有趣的是,从模型中排除甲状旁腺激素并没有显着降低其准确性。该研究得出的结论是,即使在轻度疾病的情况下,ML也可以在没有人类输入的情况下准确诊断原发性甲状旁腺功能亢进症。

罗先生等[24]研究了自动临床决策支持使用其他测试结果预测测试结果的效用。作为概念证明,他们表明,基于患者人口统计数据(年龄和性别)和其他实验室测试结果(每个集合的中位数为40个测试中的23个)的ML模型可以高度准确地区分正常和异常的铁蛋白结果(AUC 0.97,坚持的测试数据),甚至可以以中等的准确性预测铁蛋白的数值结果(通过回归)。他们还报告说,在某些情况下,预测的铁蛋白结果可能比测量的铁蛋白更好地反映潜在的铁状态。他们的结果被其他研究所分享,比如Waljee等人的研究。25],谁发现miss Forest模型优于其他估算缺失实验室结果的方法。

陈等[26开发了一个ML模型,用于预测中国2型糖尿病患者GFR的变化。由于目前的GFR方程(Cockcroft和Gault,肾脏疾病饮食的改变,慢性肾脏疾病流行病学协作)在糖尿病患者中已知是不准确的,因此包括性别,年龄,血清肌酐和BMI在内的模型在这些患者中提供了这些方程的最佳修改。

评估成熟实验室测试的有效性和疗效的ML模型的另一个有趣例子是评估肿瘤标志物在无症状受试者癌症诊断中的作用。目前建议将肿瘤标志物检测用于诊断评估,特别是在化疗后的随访期间,但不在筛查期间。即使在筛查阶段,也可以采用多种肿瘤标志物应用,一组分子的概率能力达到适当的边缘,足以识别无症状疾病。这种方法现在得到了新的代谢组学和蛋白质组学方法的支持。苏里诺娃等人[27]发现ANN从大约300种分泌的和细胞表面候选糖蛋白中选择了五种未在实验室中常规测量的蛋白质,这可能代表了在临床症状出现之前早期诊断结直肠癌的面板。然而,经典的肿瘤标志物,即使按增加的敏感性和特异性进行分组,对于明显健康的受试者的癌症筛查也没有用处,正如Wang等人所报道的那样。28]实施了一种ML方法来研究其在肿瘤标志物AFP,CEA,CA 19.9,CYFRA 21.1和SCC筛查中的诊断能力,此外还有男性的PSA和女性的CA 15.3和CA 125。对大约21,000个体的肿瘤标志物筛查的评估显示,阳性预测值不足,绝对风险降低,绝对风险增加。作者的结论是,不应建议将联合测试用于癌症筛查。

Brinati et al. [29]提出ML模型以改善血袋分配,从而节省与重要医院设施的患者血液管理系统(PBM)相关的成本。本研究旨在证明,ML模型可以基于简单的启发式方法(血红蛋白值阈值等于12.9g / dl;如果较低,则患者被视为输血)改善当前的医院PBM策略,并且在成本节约方面也是如此。研究人员使用医疗信息和拟态个人数据,从2019年1月到2019年5月,约有11,814例住院治疗,可归因于4593名患者。每个实例都具有以下属性:年龄性别血红蛋白HGB(g / dl),手术类型手术紧迫性。该研究提出了ML模型,能够使用这些信息来预测输血风险,然后治疗预测为输注药物(如铁蛋白)的患者,以减轻输血风险。通过嵌套交叉验证训练和评估了几种 ML 模式,这也允许超参数优化。由于目标变量的类不平衡,模型评估一直侧重于精度、召回率、F1 分数和 ROC 曲线 (AUC) 下的面积,作为性能的衡量标准。性能最佳的模型是随机森林,它在精度(或阳性预测值)、F1 评分、AUC 和每位患者成本(使用错误分类的相关成本计算)方面优于当前的 PBM 策略,每位患者净节省约 30 欧元。这项研究代表了ML应用的一个例子,不仅旨在改善医疗过程,还旨在改善重要资源(如血袋及其财务方面的管理)的管理。

诊断任务的ML模型的另一个有趣的实现是由Brinati等人给出的。30],其中采用ML技术检测COVID-19感染,使用常规血液测试值(血液化学测试)作为输入。这项研究显示了使用血液测试分析和ML作为rRT-PCR替代物来识别COVID-19阳性患者的可行性和临床稳定性。这在发展中国家尤其有益,这些国家往往缺少rRT-PCR试剂和专业实验室。这项工作的作者提供了一个基于网络的工具用于临床参考和评估,每个人都可以上传他的血液测试数据并查看ML模型的反应。该工具可通过以下链接获得:https://covid19-blood-ml.。本研究使用了约279例数据,这些数据是从2020年2月至2020年3月入院的患者中随机提取的。数据集中包含的有关患者年龄的信息;性别;几种常规血液测试值,如丙氨酸转氨酶(ALT),天冬氨酸转氨酶(AST),白细胞计数(WBC),乳酸脱氢酶(LDH),γ-谷氨酰转移酶(GGT),C反应蛋白(CRP)等;最后是COVID-19的RT-PCR检测结果。为此任务实现和验证的 ML 模型包括决策树、极度随机树、K 最近邻、逻辑回归、朴素贝叶斯、随机森林和支持向量机。模型选择阶段是通过嵌套交叉验证执行的,这也提供了最佳的超参数。用于评估模型的性能指标包括准确性、平衡准确性(以每个类别获得的召回率平均值计算)、精度(或阳性预测值)、召回率(或灵敏度)、特异性(或真阴性率)和 ROC 曲线下面积 (AUC)。作者选择准确性和召回率作为主要质量指标,因为假阴性(即COVID-10阳性患者,然而,预测为阴性并可能放回家)比此筛查任务中的假阳性更有害。最好的模型是随机森林,它在测试集(初始实例的20%)上记录的准确度等于82%,recall = 92%,精度= 83%,特异性= 65%,AUC = 84%。随机森林还提供了特征重要性等级,对于模型可解释性非常有用。通过估计每个特征,在经过训练的随机森林中的决策树中,总归一化约化到目标特征的方差来计算特征重要性。预测COVID-19感染的五个最重要的特征是AST,淋巴细胞,LDH,CRP和WBC。本章展示了使用血化学值作为输入的替代COVID-19测试(基于机器学习)的可行性。

最后,可以实现ML来识别实验室参数的参考限值。实验室应根据所使用的方法、分析前阶段和获得诊断服务的人群类型,确定每个特定检测的参考区间。但是,由于设置参考范围是困难的、昂贵的和耗时的[31],参考范围通常从文献中收集或从实验室测试制造商建议的文献中采用。专业文献中描述的方法通常基于传统的描述性统计方法,并用于直接从实验室数据中获取参考限值。这是可行的,特别是当有大量的门诊数据可用时,或者当人群目前被称为健康或疾病流行率较低时。

结论

机器学习模型在实验室数据中的潜在应用是相关的,但尚未完全实现。虽然可以合理地预期,随着机器学习技术越来越为人所知,它们将被实施以降低成本,支持临床决策并改善结果,但需要进一步研究以了解最佳机器学习实践是否以及如何从开创这种计算方法的其他领域有利地转移到实验室医学中, 像心脏病学,肿瘤学和放射学一样,利用相关的机会和优势,避免威胁和弱点[32].

在不久的将来,ML将帮助病理学家和临床化学家详细阐述大量数据,并最终做出决定,或者更好的是,向临床医生建议最佳决策。当然,ML不会像几年前预测的那样取代专家来代替放射科医生。实际上,目前的科学情景证实,当事实(图像)的数量非常高并且定义了它们的解释时,ML是优越的,但是,当发生率低且解释困难时,没有证据证明ML仅用于ML。因此,在临床实验室中,ML可以使用当前参数(大量测试,定义的阈值,明确的症状)来帮助诊断,并且还可以帮助详细阐述,恢复和验证大量数据(例如,基因组学,miRNA,维生素D,专家只能对一小部分患者进行验证)来定义与症状或疾病的可能联系。

在临床化学领域,关于ML(和AI)的知识传播是一个相关的话题,它的追求对于在临床化学家与计算机科学和数据科学专家之间建立联系至关重要,以建立一个对实验室专业人员及其有意义的使用和安全采用真正有效的系统。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多