张桐硕 武警特色医学中心 人工智能正在把我们拉入一个由数据驱动的世界,医学服务的发展逻辑也被智能时代的潮流深刻影响。关于人工智能未来如何推动检验医学的变革,可翻看笔者此前的介绍:人工智能呼啸吹来,检验医学何以御风而行。 机器学习是人工智能研究领域的一个分支,也是当下实现人工智能的主要手段。 抛开那些专业名词堆砌成的教科书式定义,形象地来说,机器学习通过计算机模拟了一个勤奋的孩子自学成才的过程:找来某个课题已有的数据素材,从中反复归纳潜在规律,培养洞察力,以后面对同样课题出现的未知数据,便能做出贴近实际的判断和预测。 从已知提炼新知,进而推测未知,机器学习是这类算法的总称。 图1 机器学习是一门从统计学和计算机科学的混合土壤中茁壮成长起来的学科 就像孩子们各有各的学习天赋和擅长科目,不同种类的机器学习算法也有各自的数据处理方式和适用场景。机器学习的丰富性使它可以嵌入到生活的方方面面,在医疗健康领域更是前景广阔,而这需要保质保量的数据做支撑。如此一来,影像科和检验科这类数据大户的优势凸显: 第一,手握标准化的原生数据,获取省时省力; 第二,备有临床诊断结果作为数据标签。 医学影像分析已成为机器学习竞相进军的主阵地,相比而言,检验医学还是一片蓝海市场。有志于精进业务的检验工作者值得接触一些机器学习的知识,学科交叉的电光火石间,或许能为职业发展另启一扇大门。 笔者在此聊聊对机器学习的心得,供检验界同道入门之用。 数据如矿产,封藏入土的状态并不创造价值,挖掘出来应用到实际场景中才有价值。把数据转化为效益的思路演变为大行其道的运营模式——数据变现。 “数据变现”兴起于大数据和互联网行业,大有迁移至各行各业的燎原之势。检验医学“数据变现”的目标,不仅包括经济上开源节流,重点在于提高服务质量和科研水平。 自动化检验技术突飞猛进,检验实验室每天流经的“数据”很多,问题是“变现”的路径很少,难以发挥与自身数据大户地位相匹配的贡献。 报告单的发出往往就意味检验工作的终结,空留一堆庞杂的信息,却苦于缺乏挖掘数据财富的技术,感觉有点像守着金矿的乞丐。检验在医院学科群体中的影响力和学术地位偏低,与之不无关系。 图2 检验医学的尴尬处境:家里有矿,奈何没有趁手的掘金利器 结合机器学习的性能特点和已发表的研究案例,笔者可以预见,机器学习加持下的检验医学将跨出现有的一亩三分地,服务范围从围绕标本的测定,延伸到检验前和检验后的整个链条。 针对不同疾病筛选最优标志物,或优化标志物的组合模式,指导临床医师合理选择检验项目。 赋能计算机视觉,提高对各种体液标本和骨髓中细胞形态的鉴别能力。形态学检验高度依赖人工经验,乃自动化分析最后的难关,开始被深度学习算法所撬动。 建立辅助诊断模型,给出与数值结果紧密配套的个体化报告解读:发病风险、进展趋势、预后评估、追加相关检查的建议等。提供咨询服务,与临床科室深层次地合作。 不仅于此,机器学习在自动审核和危急值预警中的应用呼声也很高。整合病人的历史检验数据和临床信息要素,寻找多个项目间的关联模式,从而制定出个性化的参考区间和更加完善的审核规则,突破LIS系统仅依据单一项目结果进行异常提醒的局限。 退一步讲,即便机器学习工具难以超越经验丰富的人类专家,但它运行状态稳定,不知疲倦地为检验工作者提供决策参考,我们的时间和精力便能被解放出来,投身到更具挑战性的目标中去。 这一轮人工智能的算法革命接近完成,成熟的机器学习工具已经走出实验室,转向应用的细分领域。检验界应该抓紧机器学习落地和推广的黄金时间,直接拿来现有的成果,找到它在检验工作中的运用空间。 欲将机器学习为检验所用,必先认清我们的能力边界。 要检验人搞清楚硬核的机器学习理论推导和代码着实困难,但这并不妨碍我们把它用好。对非专业人士而言,了解各种机器学习算法擅长解决的问题或适用的业务场景,还是有可能的,剩下就是有的放矢地借助专业平台,探索领域内关心的问题。 笔者梳理了检验领域最常用的多指标联合诊断的方法体系,按产生年代和复杂程度,划分为四个层级。以此为例,带大家扒一扒机器学习所处的段位,摸一摸检验人运用它的抓手。 图3 多指标联合诊断模型家族“四世同堂”,一代更比一代强 互补性指标提高诊断效率的策略林林总总,编入大学教材属于必学内容的唯这一种。联合试验是诊断模型家族中的初级版,其方法有两类。 ☑平行试验(俗称“并联”):多个指标中只要一个呈阳性即诊断为阳性。灵敏度高、误诊率低。 ☑系列试验(俗称“串联”):全部指标皆呈阳性才诊断为阳性。特异度高、漏诊率低。 联合试验简单粗暴,用不着公式计算,凭一双眼就能轻松驾驭,但缺点也明显:每个指标的界值必须事先确定,灵活性大打折扣诊;灵敏度和特异度不能兼顾,误诊和漏诊难以平衡。 以logistic回归、线性判别分析为代表的多元统计分类法稳居主流,时常翻阅临床研究类文献的同学肯定对其脸熟。 这类进阶版诊断模型的原理简明——构建一个函数,将多个指标的诊断信息融合成一个新指标,使其诊断准确度优于单个指标。 世界三大统计软件SPSS、SAS、Stata均可完成,检验工作者稍加培训便能熟练操作。 统计学对追求对函数的线性简化,固然便于对复杂问题的数学描述,但处理现实中那些非线性变化的检验指标就力不从心了。比如某些癌症患者随病情进展,血清球蛋白水平呈倒“U”型变化,早期受病灶刺激上升,晚期则在机体免疫抑制状态下回落,对模型扰动很大。 机器学习脱胎于统计学,但不同于统计学的模型驱动的路子,机器学习是典型的数据驱动的思维方式,它抛弃了因果逻辑、数据分布假定和严谨明确的数学形式,曾被视为直接从一堆数据出发做预测分析的“野路子”。 在数据膨胀、计算能力极大提升的新时代,接地气、重实战的机器学习技术突飞猛进,强势逆袭。神经网络、贝叶斯网络、支持向量机、随机森林等一批经典的机器学习算法涌入检验诊断领域,在高水平的SCI论文中蔚然成风,被封为诊断模型中的高阶版。 机器学习擅长处理模糊数据和非线性映射问题,另一个优势在于,支持不断累加的数据对当前模型迭代改进,而无需重复训练历史数据(流式学习算法),能实时“刷新”诊断水准。 不少软件能拿来做机器学习。 名扬医学界的SPSS软件就自带神经网络和决策树的功能模块,MeV等生物信息学分析工具也能做一些简单的机器学习,它们是机器学习工具中的傻瓜相机,只需按步骤点击对话框,但毕竟对话框里只有基础选项,无法比拟编程语言的临机应变。 R语言、Python和Matlab几款编程语言在生物科研圈人气渐盛,玩转机器学习不在话下。它们建有活跃的线上社区,遍地共享程序包,我们搜到所需的直接调用即可。当然,至少要看懂程序的大体架构,别人的代码总要微调一下,才能运行自己的数据。 深度学习是一种特殊的机器学习,从传统的人工神经网络衍生而来,俨然一颗人工智能领域最耀眼的明星,后一节将有详细介绍。 深度学习对小样本问题无法入手,但随着样本规模增大,深度学习愈发展现出胜于传统机器学习的强大性能。 初始检验指标或形态学图像经多个隐含层网络结构的拆解、过滤、转化,对诊断结果有更本质的刻画,从而形成优异的样本分类能力。 如果说经典机器学习距离医学生的高度,一己之力跳一跳还能够着,那么只有借用爬梯,才能摘取深度学习的果实。 深度学习算法消耗的计算资源和时间惊人,依赖高端硬件,而经典机器学习算法用普通个人电脑就能运行;操作上也面临高门槛,需要将患者的检验结果和对应的诊断信息正确提交给深度学习平台,比如TensorFlow、H2O、Weka等,而掌握这类面向深度学习量身开发的服务平台并非易事。 因此,实现环节一般交由专业人士或机构,并借用大公司的硬件软件系统和云平台。检验工作者学习深度学习的主要目的,不在于亲自操刀,而是与外援团队顺畅沟通,评估乙方提供方案的合理性。 机器学习种类纷繁、知识零散,走马观花,难免抽象枯燥。但当我们探向纵深,了解了这些机器学习算法的演进脉络,知道了它们曾经如何被塑造,又将如何改变世界,必然叹服于困难和瓶颈所催生出的种种解决方案的精妙,对机器学习产生亲切感。 众多算法流派中,笔者撷取著名的两支作为案例,带大家领略一下机器学习的沿革。 图4 神经网络和随机森林的发展简史——花开两朵,各表一枝 人工神经网络算法是一种仿生方法,以工程技术手段模拟人脑的神经网络,利用大量的非线性处理器来模拟众多的神经元,用处理器之间的连接关系来模拟神经元之间的突触行为。 神经网络的数学本质是一个多层复合函数,由输入层、输出层,以及两者间的隐含层构成。 当隐含层只有一个神经元时,类似古老的logistic回归的作用,是神经网络进化的起点; 当一个隐含层有多个神经元时,可看作logistic回归的分身术,根据万能逼近定理可以拟合任一函数,便是通常意义上的神经网络,但在产业应用中受限而转入低潮; 隐藏层比较多(3层以上)的神经网络叫做深层神经网络,亦称深度学习,它可以逐层完成数据特征提取,完成更加艰难的任务。其概念于2006年提出后大放光芒,驶入应用快车道,如今深度学习已开枝散叶,家族繁盛,主要有以下几类。 ➥卷积神经网络:用于图像识别,如医学影像读片。 ➥循环神经网络:用于语音识别和文本语言处理。 ➥生成对抗网络:用于风格迁移,如模仿梵高绘画风格,明星自动换脸。 ➥深度强化学习:用于决策和博弈,如自动驾驶,训练出击败人类围棋冠军的阿尔法狗,在星际、魔兽等电竞比赛中身手不凡。 …… 决策树是一种解决多类分类问题的判别模型,它很符合人类的思维习惯。 通过训练制定出一组嵌套的规则,这种决策分支结构很像一棵树的枝干。决策过程从根节点开始,待测数据与每个决策节点进行比较,选择进入下一级比较分支,直到叶节点作为最终的决策结果。 可惜“独木不成林”,实现决策树的算法几经改进,依旧克服不了固有缺陷。直到2001年提出决策树的扩展版——随机森林,通过汇总大量决策树提高模型的分类精度。 首先对训练样本和特征变量随机抽样,生成千万棵决策树,再以少数服从多数的投票机制,联合预测结果。 随机森林对离群值、过拟合和多重共线性不敏感,稳定性强,可谓林海莽莽,不惧风雨摧折。 从一个神经元到一张神经分布网,从一棵树到一片森林,两家算法相似的底层机理一同诠释了“大量出奇迹”,但与海量互相牵涉的组成单元伴随而来的,是可解释性被剥夺,算法系统幕后的运作细节,观察和追踪起来非常困难。 机器学习的“黑箱”中,充满了人类无法描述的“暗知识”,而治病救人的医学,恰恰最需要确凿无疑、令人信服的因果联系做支撑。如何接受医学标准的审视,是横在机器学习面前的难关。 虽说机器学习具备从数据中反复训练、自动学习的能力,但并不意味着我们“喂”给机器数据后,就可以当甩手掌柜了。 机器学习经常做费力不讨好的盲目训练,有必要引入宏观调控手段:一是降维,二是参数优化,两者贯穿于几乎所有机器学习类型。大家应趁早建立起降维和参数优化的意识。 用以描述样本的特征变量的数目(维数)在大数据时代普遍增多,机器学习模型的复杂度和训练所需的样本量随之呈指数倍增,终将不堪重负,遭遇棘手的“维数灾难”。 降维,顾名思义,把高维数变换到低维数,也就是减少变量而尽量保留原有重要信息。 降维的方法众多,思路迥异,仿佛游目于山水幻象之间,在不同的人眼中还原成不同的风光…… 图5 降维,如同对这烟云笼罩的山水进行一番去粗取精、去伪存真的侦辨 聚类分析的目标是将相似性(距离或相关系数)高的变量归为同一类或簇。以笔者所做的一项卵巢癌辅助诊断的研究为例,收集了二十多项检验指标。如图6,这些指标大体分为三类,再从每类中挑选一二个指标,作为下一步建模的输入变量。聚类分析不产生新变量,只是帮助找出有代表性的变量。 图6 检验指标的层次聚类分析结果 主成分分析将初始变量线性组合,合成少数几个新的综合变量(主成分)。继续上面卵巢癌诊断的案例,笔者选取特征值排名前三的主成分代表初始检验指标的信息,列举第一个主成分的表达式: P1=0.615×CA125+0.06×CA15-3+0.657×CA72-4+…-0.123×TC+0.144×LDL-C/HDL-C 主成分与初始变量的联系一目了然,检验指标的权重系数反映了其对主成分的影响力。主成分1主要反映了可归纳为妇科肿瘤标志物和激素水平,主成分2反映了血糖和血脂代谢情况,主成分3反映了炎症状态。 t-SNE是一种非线性降维方法,它基于邻域图上随机游走的概率分布,适合对高维数据的二维或三维可视化。笔者利用t-SNE将20多个检验指标转换为3个新变量,绘制成三维散点图,图7可见卵巢癌组与各对照组的区域划分较明显。 新变量与初始变量之间复杂的多项式关系,致使我们难以直观地理解新变量的专业意义。 图7 检验指标经t-SNE降维后将样本分成几簇 参数是影响机器学习性能的关键,机器学习的训练过程本质上是一个寻找最优参数的过程。 比如神经网络模型,就有隐含层神经元的数量、学习速率、连接权值和阈值等一系列参数需要正确配置。 奈何开启不了上帝视角,不能一步到位给定每个参数的最佳值,既然你我皆凡人,那就脚踏实地去搜索吧——根据专业知识和经验预估出参数初始值,然后在运算过程中反复试错调整,逐步逼近最优参数。 理论上“条条大路通罗马”,算法一通七拐八绕总能到达最优参数的目的地,但既耗时又占内存,中间还易陷入局部最小。 与其盘曲小径跑断腿,不如规划路线切入笔直大道。因此,通常会引入优化算法,来缩小参数集的范围,自适应地提升参数搜索效率。 现代智能算法的用途主打参数优化,包括:模拟退火算法、免疫算法、遗传算法、蚁群算法、粒子群算法等。听听命名便知,这些算法的开发灵感来自于自然现象或生物学行为,属于启发式算法,具体原理不做赘述。 回到主题,身在检验医学行业的我们,借力机器学习完成“数据变现”的优势何在? 依笔者看来,不在于算法,因为各大科技公司竞相推出了开放性人工智能平台,算法往往是开源的;不在于算力,因为云计算服务越来越便宜; 我们的核心优势要构建在数据供应上、在对工作问题的发觉上、在把行业痛点跟机器学习工具的对接上。 检验乃至其他医务工作者,下功夫去了解机器学习的概念、流派、发展简史,未必就能上手运行算法以解应急之需。 跨出自己的知识圈,拥抱机器学习的真正意义,是培养数据思维。深刻地认识日常工作中产生的数据,日后才可能以数据指引业务的改善,形成“数据变现”的成长模式。 一时一地的代码调试受挫,不必沮丧,机器学习背后的蕴含的数据思维和方法论,才让我们长期受用。 ![]() 说明:本文为原创投稿,不代表国际检验医学传媒、检验医学微信平台观点。转载时请注明来源及原创作者姓名和单位。 编辑:徐少卿 审校:陈雪礼 |
|