分享

机器学习与医学预测

 czxiaoyi 2017-10-08


合理预期大数据健康收益

 

严章明,钟声*

University of California San Diego

*通讯作者

 

近年来大数据与机器学习促成了许多行业的创新性变革。随着精准医疗计划的开展,健康医疗大数据与机器学习的结合,给人们带来了对未来大数据健康事业无穷的想象空间。然而,本期《新英格兰医学杂志》发表的一篇前瞻文章指出机器学习在经历了高速发展之后已经达到了过热期望释放的顶峰1,2

查看更多

我们都听说过,大数据承诺要通过广泛获集电子健康档案与高容量数据流来变革医疗领域,数据来源从保险偿付到个人基因组学及生物传感器登记系统1。人工智能与机器学习预测算法已经可以自动驾驶汽车、识别语音,还能发现信用卡欺诈。它们是解锁数据,从而为实时决策精确提供信息的关键所在。然而在新兴技术的“炒作周期”里,机器学习这一技术目前正行至“期望膨胀峰”的顶端2

医学领域对预测并不陌生。从应用风险评分指导抗凝治疗(CHADS2)与降胆固醇药的使用(ASCVD),到重症监护室内患者的风险分层(APACHE),由数据驱动的临床预测在医疗实践中已成惯例。结合现代机器学习,临床数据源使我们得以对数以千计的相似临床问题迅速生成预测模型。从对脓毒症的早期预警系统,到超人影像诊断,这些方法的潜在适用范围是相当可观的。

  

然而,这些真实世界的数据源依然存在着问题。传统方法主要依据的数据来自精心构建以减少偏倚的队列;而新兴的数据源通常结构较差,因其设计是服务于其他目的(例如临床医疗和计费)。问题的范围从患者的自主选择到适应证干扰,再到无法持续获得结局数据;这些问题可在机器预测中导致无意偏倚,甚至是种族定性。意识到这些挑战的存在或许能防止其炒作超出数据分析如何改善医疗决策的期望。

机器学习的方法特别适合基于现有数据做出预测,但是对于遥远未来的精确预测往往是不可能的。面对靶向治疗,HER2阴性乳腺癌的预后模型就不得不整个颠倒过来;对于流感疫苗的预测效果也随疾病流行率及社区免疫率而变化。鉴于医疗实践会对新兴技术、流行病学及社会现象做出回应,进而不断发展变化,因此我们将永远在追逐一个移动着的目标。

“谷歌流感趋势”(Google Flu)的兴衰提醒我们,基于一年的数据来预报每年一度的事件基本上等同于仅使用单一数据点,因此必然会遇到基本的时间序列问题3。而如果未来并不一定与过去相似,则仅仅随着时间推移积累大量数据只会造成收益递减。对于从电子健康档案自动学习住院患者医疗实践模式的决策支持算法而言,研究表明,积累多年的历史数据比简单使用最近年份数据的结果还要糟糕。当我们的目的是学习未来医学该如何实践时,临床数据的相关性随时间而衰减,有效“半衰期”仅4个月左右4。为评估预测模型的效能,我们必须通过它们预测未来事件的准确性来进行评定,而不是它们总结历史趋势的能力。

尽管通过捕捉数据中复杂的非线性关系,机器学习算法比使用常规回归模型更能改进预测的准确性,然而,任何程度的算法精细度或计算能力都不能无中生有,提取出不存在的信息。这也就是为何临床数据本身对患者再次入院的预测能力相对有限。患者再次入院可能与决定健康的社会因素更为相关。

对此,显而易见的解决方案就是堆上更多种类的数据,从社会人口统计学到个人基因组学,再到移动传感器读数,最后到患者的信用记录和网页浏览记录,把所有信息都包括进来。囊括正确的信息流可大大改善预测准确性。然而,即使是确定性(非随机)过程,混沌理论也解释了为何哪怕是简单的非线性体系也无法精确预测到遥远的未来。所谓的蝴蝶效应指的就是未来对初始条件的极度敏感性。极微小的变化,哪怕看起来就像测量中微小的四舍五入误差那样可忽略,也能累积为截然不同的未来事件。同卵双胎具有相同的可观察的人口统计学特征、同样的生活方式、医疗保健,以及遗传基因,因此必然会产生相同的预测结果;然而,同卵双胎仍然最终发生完全不同的实际结局。

举例来说,尽管没有任何方法可以精确预测你的死亡日期,但这种级别的精度对于预测的有用性往往是没必要的。将复杂的现象重新用有限的多选问题来组织(例如,未来10年内你会发作心脏病吗?未来30天内你重新住院的概率是比平均值高还是低呢?),预测算法就可以像诊断筛查测试一样来运作,对患者人群根据风险分层,并为不同决策提供信息。

研究在不断改善临床预测的准确性,但即使是完美校准的预测模型也可能无法转化为更好的临床医疗。对于患者结局的准确预测并不能告诉我们若想改变这一结局该怎么办——事实上,我们甚至无法认定这些预测结局是可能被改变的。

机器学习的方法是通过识别数据中强大但无理论解释的关联来实现的。然而,在分辨确实可以改变结局的可调整因素的过程中,混杂作用使得机器学习在因果推理中跨越过大。诚然,举例而言,姑息疗法咨询与去甲肾上腺素输注的确高度预示了患者的死亡,但若是依此得出停止以上任一步骤便会降低死亡率的结论的话,就着实荒谬了。模型能准确预测心力衰竭、冠心病或肾功能衰竭患者发生术后并发症的风险较高,但它们并没有提供任何降低该风险的机会(除了放弃手术外)。并且,很多这样的预测之所以“高度准确”,主要是因为这些病例的可能结局对执业医师来说已经显而易见了。因此,临床实现的最终关键一步落在了更为紧要的目标上:足够早地预测事件,使得合适的干预能够影响医疗决策与结局5

鉴于机器学习目前正处于期望膨胀峰值处,因此通过促进大众对该技术的能力和局限性有更深入的理解,我们可以使其随后跌入“幻灭低谷期”2的过程更为缓和。在我们用理想化且无法实现的完美标准去要求计算机化系统(或人类)之前,请让我们用真实世界的医疗标准来做基准,也就是说,医生会严重误估罕见诊断筛查测试的阳性预测值,经常三倍高估患者预期寿命,并在患者临终前6个月里提供强度差异极大的医疗服务。

尽管预测算法无法消除医疗不确定性,但它们已经开始改善稀缺医疗资源的分配,帮助避免低危肺栓塞(PESI)患者入院,以及通过MELD评分方式来公平决定患者肝脏移植的优先度。早期预警系统曾经需要花费数年方能创建,而如今则可以通过真实世界的数据得到迅速开发与优化,就如同深度学习的神经网络如今隔三岔五就能产出最先进的影像识别能力一样,这一切在以往都被认为是不可能的。

这样的人工智能系统是否比人类执业医生更为“聪明”是让人兴奋的辩论话题,但基本上无关大局。把机器学习软件和最优秀的人类临床医生“硬件”结合在一起,所能提供的医疗服务将胜过任何单一执行结果。让我们越过炒作周期,直达“稳步上升的启迪期”2,到那一步,我们可以运用所有信息与数据源来持续改善我们的集体健康。

 

    Disclosure forms provided by the authors are available at NEJM.org.


译者:周巍,Department of Experimental Radiation Oncology, University of Texas MD Anderson Cancer Center

校对:侯海燕,NEJM医学前沿

 

NEJM Group content Copyright © 2017 Massachusetts Medical Society.  All rights reserved.

马萨诸塞州医学会NEJM集团 © 2017年版权所有。保留所有权利。

参考文献

1. Obermeyer Z, Emanuel EJ. Predicting the future — big data, machine learning, and clinical medicine. N Engl J Med 2016;375:1216-12192. Gartner, Inc., identifies three key trends that organizations must track to gain competitive advantage in its 2016 hype cycle for emerging technologies. ...查看更多

 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多