医学领域的机器学习 Machine Learning in Medicine

医学abeycd 2019-04-05

展开全文

一名49岁患者注意到自己肩部有一处无痛皮疹，但未就诊。几个月后，妻子让他去就诊，结果诊断出脂溢性角化病。之后，患者在接受结肠镜筛查时，护士注意到其肩部有一处深色斑疹，并建议其接受检查。1个月后，患者到皮肤科医师处就诊，医师采集了皮损活检标本。检查发现一处非癌性色素性皮损。皮肤科医师仍对皮损表示担心，因此要求对活检标本进行第二次读片，结果诊断出侵袭性黑色素瘤。肿瘤科医师对患者启动全身性化疗。患者的一位医师朋友问其为何未接受免疫治疗。

如果每一项医疗决策（无论是重症监护医师还是社区卫生工作者做出的医疗决策）均由相关专家团队立即进行审核，并在决策看似有误的情况下提供指导，情况将会是什么样？新诊断出高血压，但无并发症的患者将接受已知最有效的药物，而非处方医师最熟悉的药物1,2。开处方时无意中发生的过量和错误将很大程度上被消除3,4。患神秘和罕见疾病的患者可被引导至其疑似诊断的相关领域知名专家处5。

这样的系统看似难以实现。并无充足的医学专家可以参与其中，专家要花太长时间才能通读患者病史，而且与隐私法相关的顾虑也会导致工作尚未开始就已结束6。然而，这正是医学领域机器学习展现的前景：几乎所有临床医师制订决策时蕴含的智慧以及数十亿患者的结局应该可以为每位患者的治疗提供指导。也就是说，每项诊断、管理决策和治疗都应结合集体的经验教训，从而根据患者的所有已知信息做到实时个体化。

这一框架强调机器学习不仅仅是像新药或新医疗器械一样的新工具，而是对超出人脑理解能力的数据进行有意义处理所需的基本技术；海量的信息储存日益见于庞大的临床数据库，甚至日益见于单一患者的数据7。

近50年前，本刊的一篇特别报告指出，计算功能将“增强医师的智力功能，并且在某些情况下很大程度上取代医师的智力功能8。”然而，到了2019年初，机器学习在医疗领域发挥的推动作用仍然惊人地少。我们在本文中描述医学领域的机器学习要实现其全部前景，医疗系统必须做出的核心结构变化和模式转变（见视频），而非报告已经测试过的无数（关于回顾性数据的）概念验证模型

什么是机器学习

传统上，软件工程师将知识经验浓缩提取成明确的计算机代码，而代码准确地指导计算机如何处理数据和做出决策。例如，如果患者血压升高且未接受抗高血压药治疗，则正确编程的计算机可提出治疗方案。这些基于规则的系统合乎逻辑并且可以解释，但是，正如本刊1987年一篇回音壁文章中所述，医学领域“如此广泛且复杂，即便并非不可能，也很难从规则中获取相关信息9。”

传统方法和机器学习的关键区别是机器学习中的模型是从实例中学习，而不是用规则编程。对于给定的任务，实例是以输入（称为特征）和输出（称为标签）的形式提供。例如经病理科医师读片的数字化切片被转换成特征（切片的像素）和标签（例如表明切片包含癌变证据的信息）。计算机利用通过观察进行学习的算法，确定如何执行从特征到标签的映射，从而创建一个将信息泛化的模型，以便应用新的、以前从未见过的输入（例如未经人类读片的病理切片）来正确执行任务。这一过程称为监督学习，如图1所示。还有其他形式的机器学习10。表1举例说明了在经同行评议的研究的基础上，输入-输出映射的临床实用性，或者现有机器学习能力经简单扩展后的临床实用性。

图1. 监督学习的概念一览

如图A所示，机器学习从任务定义开始，任务定义说明了应映射到相应输出的输入。该实例的任务是从一种语言的文本（输入）中提取一小段，并生成具有相同含义但不同语言的文本（输出）。没有一套简单的规则可以很好地执行这种映射；例如简单地翻译每个单词而不考虑上下文并不能获得高质量的译文。如图B所示，训练机器学习模型有几个关键步骤。如图C所示，利用建立模型时未使用的数据（即测试集）来评估模型。此项评估一般在正式测试之前进行，旨在确定模型在试验设计（如随机临床试验）所涉及的现场临床环境中是否有效。

表1. 驱动机器学习应用的输入和输出数据类型实例*

* 机器学习模型需要收集历史输入和输出数据，它们也称为特性和标签。例如一项确定基线心血管危险因素，然后对患者心肌梗死发生情况进行随访的研究将提供训练实例，其中特征是一组危险因素，标签是未来的心肌梗死。该模型经过训练之后，可根据特征预测标签，因此可预测新患者的标签发生风险。这一通用框架可用于多种任务。ARDS指的是急性呼吸窘迫综合征，CT指的是计算机断层扫描，EHR指的是电子病历。

在预测的准确性至关重要的应用中，模型在数百万个特征和实例中发现统计学模式的能力是实现超人性能的关键。然而，发现这些模式之后，不一定可相应地识别出基础生物学通路或可改变的危险因素，而这些通路和危险因素才是开发新疗法的基础。

机器学习模型和传统统计学模型之间没有清晰的界限，近期发表的一篇论文总结了两者之间的关系36。然而，新的复杂机器学习模型（例如在“深度学习”中使用的模型，深度学习指的是利用人工神经网络的一类机器学习算法，该算法可学习特征和标签之间极其复杂的关系，并且已被证明对影像分类等任务的执行能力超过人类37,38）非常适合利用现代临床治疗中获得的复杂且异质的数据类型（例如医师输入的医疗记录、医学影像、来自传感器的连续监测数据以及基因组数据），并从中进行学习，从而协助做出医学相关预测。表2指导我们何时使用简单的机器学习模型，何时使用复杂模型。

表2. 决定需要哪类模型时要问的关键问题

人类学习和机器学习之间的一个关键区别是人类可以学会通过少量数据建立一般和复杂关联。例如一个蹒跚学步的孩子并不需要见过许多猫科动物实例就可以认出猎豹是猫科动物。一般而言，机器学习相同任务所需的实例数量远超过人类所需的实例数量，而且机器没有常识。然而，事情的另一面是，机器可以从大量数据中学习39。使用电子病历（EHR）中存储的数千万患者病历（包含数千亿个数据点）训练机器学习模型是完全可行的，且过程中不会发生分心疏忽，而人类医师整个职业生涯中诊疗过的患者数量很难超过几万。

机器学习如何增进临床医师的工作

预后

机器学习模型可以学习大量患者的健康轨迹模式。该设备可帮助医师站在专家的高度预测未来事件，获取信息的范围远超出个体医师的临床实践经验。例如患者重返工作岗位的可能性有多大，或者疾病进展速度将有多快？在人群水平，相同类型的预测能够可靠地识别很快将出现高危状况或所需医疗服务增多的患者；通过这些信息，我们可提供额外资源来主动支持上述患者40。

大型综合医疗系统已经在使用简单的机器学习模型自动识别有可能被转入重症监护病房的住院患者17，此外回顾性研究提示，可以利用EHR41和医学影像的原始数据建立更复杂和准确的预后模型42。

建立机器学习系统需要可说明患者综合纵向状况的数据，并利用这些数据进行训练。只有建立模型时使用的数据集中包含结局时，模型才能学习患者会发生什么情况。然而，数据目前被分别保存在EHR系统、医学影像存档和传输系统、支付方、药品福利主管（pharmacy benefits manager），甚至患者手机的应用程序中。一个解决方案是系统性地将数据放在患者自己手中。我们长期以来一直倡导这种解决方案43，患者控制的应用程序编程接口如今正被快速采纳，它使得上述解决方案得以实现44。

统一数据格式（例如快速医疗互操作性资源[Fast Healthcare Interoperability Resources，FHIR]）45融合之后，我们将能够进行数据汇总。然后，患者可以决定允许哪些人访问其数据，进而用于建立或运行模型。有人担心技术互操作性不能解决EHR数据在语义标准化方面广泛存在的问题46，但通过HTML（超文本标记语言），我们已经为可能比EHR数据更混乱的网络数据建立索引，并且HTML已经在搜索引擎中发挥功用。

诊断

每个患者都是独特的，但最好的医师可以确定患者特有的细微体征属于正常值还是异常值。通过机器学习检测出的统计学模式可否帮助医师识别他们不经常诊断的疾病？

美国医学科学院（Institute of Medicine）的结论是，每个患者一生中几乎都会遇到诊断错误47，而正确诊断疾病对得到适当治疗至关重要48。这一问题并不仅限于罕见疾病。心源性胸痛、结核、痢疾和分娩并发症在发展中国家经常被漏诊，即使是在治疗机会、检查时间和接受过充分培训的医务人员足够的情况下49。

利用常规治疗中收集的数据，机器学习可以在临床诊疗中确定可能的诊断，并提高对临床表现出现时间较晚的疾病的关注50。然而，这种方法有局限性。不太熟练的临床医师可能无法获得模型为其提供有意义协助所需的信息，并且建立模型时所依据的诊断可能是临时或不正确的诊断48，可能是未表现出症状的疾病（因此可能导致过度诊断）51，可能受计费的影响52，或者可能根本未被记录。然而，模型可以根据实时收集的数据向医师建议应提的问题或应做的检查53；这些建议在后果严重的误诊常见（如分娩）或临床医师不确定的情况下可能会有所帮助。临床正确诊断与EHR或索偿书中记录的诊断之间的差异意味着临床医师从一开始就应参与其中，确定常规治疗中产生的数据应如何应用于诊断过程的自动化。

模型已训练成功，可识别各类型影像中的异常（表1）。然而，对作为临床医师常规工作一部分的机器学习模型开展的前瞻性试验有限19,20。

治疗

在有数万医师治疗数千万名患者的大型医疗系统中，患者就诊的时间和原因，以及类似疾病患者的治疗方式存在差异。模型可否对这些天然差异进行分类，帮助医师确定集体经验何时提出更好的治疗方式？

一个简单的应用是将医师诊疗时开出的治疗方式与模型预测的治疗方式进行比较，并标注出差异供审核（例如其他临床医师大多开出符合新指南的另一种治疗方式）。然而，根据历史数据训练出的模型只是学习了医师的处方习惯，而不一定是规范的临床实践。如果希望模型学习哪些药物或治疗对患者最为有益，则需要仔细策管数据或估计因果效应，而机器学习模型并不一定能够识别因果效应，有时机器学习模型不能根据给定的数据识别因果效应。

疗效比较研究和实用性试验54中使用的传统方法提供了来自观察数据的重要启示55。然而，最近使用机器学习所做的尝试表明，要做到以下几点有一定的挑战：与专家一起生成策管的数据集、更新模型以便纳入新发布的证据、对其进行调整以便适合各地区的处方习惯以及从EHR中自动提取相关变量以便使用56。

机器学习还可根据临床文件自动选择可能符合随机对照试验纳入标准的患者57，或识别可能在研究中受益于早期疗法或新疗法的高危患者或患者亚群。通过上述努力，医疗系统能够以更低的成本和管理费用对符合临床均势的各种临床场景进行更严格的研究54,58,59。

临床医师工作流程

EHR的引入提高了数据的利用度。然而，这些系统也让临床医师感到挫败，原因是系统中一大堆关于计费或管理的复选框60、笨拙的用户界面61,62、输入数据所需的时间增加63-66以及发生医疗错误的新的可能性67。

许多消费产品中使用的机器学习技术也可用于提高临床医师的效率。搜索引擎中使用的机器学习可为临床医师提供帮助，使其无须多次点击即可显示患者病历中的相关信息。预测键入、语音听写和自动摘要等机器学习技术可改进表单和文本字段的数据输入。预先核准可以由模型代替，这些模型根据患者病历中的信息自动核准支付68。运用这些能力不仅仅是为了方便医师。临床数据的顺利查看和输入是数据收集和记录的基本前提，而数据收集和记录又使机器学习能够为每位患者提出尽可能好的治疗。最重要的是，效率的提高、文档的简化和自动化临床工作流程的改进将使临床医师有更多的时间与患者在一起。

在EHR系统之外，机器学习技术还适用于外科视频的实时分析，从而帮助外科医师避开关键解剖结构或意外变异，机器学习技术甚至可以处理比较单调的任务，例如准确计数手术敷料。核对清单有助于避免手术错误69，而对其执行情况的无间断自动监测进一步提高了安全性。

临床医师生活中可能也在智能手机上使用这些技术的变体。尽管已经有回顾性概念验证研究评估了这些技术在医学领域的应用15，但这些技术要得到采纳，遇到的主要障碍不是在模型开发方面，而是在以下方面：技术的基础设施，EHR的法律、隐私和政策框架，卫生系统，以及技术提供商。

扩大临床专业技能的可及性

医师不可能与需要治疗的所有患者逐一交流。机器学习能否扩大临床医师可及的范围，从而在无须临床医师亲自参与的情况下提供专家级的医疗评估？例如新发皮疹的患者可以发送智能手机拍摄的照片，然后得到诊断32,33，从而避免不必要的急诊就诊。考虑去急诊就诊的患者可以与自动分诊系统沟通，分诊系统在适合的情况下引导其接受其他形式的治疗。患者确实需要专业人员帮助时，模型可以确定具有相关专业技能并且有时间接诊的医师。同样，为了提高舒适度和降低成本，如果机器可以远程监测传感器数据，则原本可能需要住院的患者可以待在家中接受治疗。

如果某些地区的患者获得医疗专业人员直接协助的途径有限70且过程复杂，那么将机器学习系统做出的判断直接发送给患者具有重要意义。即使在专业临床医师充足的地区，这些临床医师也担心自己的能力和努力程度无法及时、准确解读患者身上的传感器或运动追踪设备所收集的海量数字式数据71。事实上，通过数百万患者就诊数据训练出的机器学习模型有望帮助医疗专业人员具备更好的决策能力。例如护士可承担许多传统上由医师执行的任务，初级保健医师可履行一些传统上由专科医师承担的角色，专科医师可将更多的时间用于可从其专业技能受益的患者。

不涉及机器学习的各种手机应用程序或网络服务已被证明可提高用药依从性72和慢性病控制效果73,74。然而，在直接面向患者的应用中，机器学习遇到的障碍是缺少正式的回顾性和前瞻性评估方法75。

主要挑战

高质量数据的利用度

在建立机器学习模型的过程中，核心挑战是收集到具有代表性的多样化数据集。理想做法是确定模型使用中预期将会遇到的数据格式和质量，然后利用与之最相似的数据来训练模型。例如，对于计划在床旁使用的模型，最好应用EHR中相应时刻的相同数据，即使已知这些数据不可靠46或存在不需要的变异性46,76。足够大的数据集可以成功地训练现代模型，从而将有噪输入映射到有噪输出。使用较小规模的策管数据集（例如临床试验中通过人工病历审核收集的数据）并非理想做法，除非床旁临床医师将根据最初的试验规范手动提取变量。这种做法对于某些变量可能可行，但对于做出最准确预测所需的数十万EHR变量并不可行41。

数据领域有一句格言是“垃圾进，垃圾出”，而我们又在使用有噪数据集训练模型，两者之间如何协调？如果希望了解复杂的统计学模式，最好有大规模数据集（即使是有噪数据集），但如果希望微调或评估模型，则必须有带策管标签的较小规模实例集。这样可以在原始标签可能有误的情况下，对照预期标签正确评估模型的预测结果21。影像学模型通常需要多名评定人裁定每张影像，然后生成“真实值”（即无误的专家为某一实例指定的诊断或发现）标签，但对于非影像学任务，事后获得真实值也许是无法做到的，原因例如未获得必要的诊断性检查结果。

机器学习模型一般在有大量训练数据的情况下表现最佳。因此，在机器学习的许多用途中，一个关键问题平衡以下两方面，一方面是隐私和法规，另一方面是希望利用大量的多样化数据集来提高机器学习模型的准确性。

从过去的不可取做法中学习

所有人类活动都存在不想要且无意识的偏差。机器学习系统的建立者和使用者需要仔细思考偏差如何影响用于训练模型77的数据，并采用措施解决和监测这些偏差78。

机器学习的优势，也是其弱点之一是模型可以在历史数据中识别出人类无法发现的模式。来自医疗实践的历史数据显示出医疗差距，即为弱势群体提供的医疗系统性地劣于为其他人群提供的医疗77,79。在美国，历史数据反映出对可能不必要的治疗和服务做出奖励的支付系统，而且历史数据中可能缺少应接受治疗，但实际未接受治疗的患者（例如无保险的患者）数据。

法规、监督和安全应用方面的专业技能

卫生系统已经开发出确保向患者安全提供药物的复杂机制。机器学习的广泛应用也需要类似的复杂监管结构80、法律框架81和本地规范82，从而确保系统的安全开发、应用和监测。此外，技术公司必须提供可扩展的计算平台，用于处理大量数据和使用模型；然而，如今它们承担的角色尚不明确。

至关重要的是，使用机器学习系统的临床医师和患者需要理解它们的局限性，包括在某些情况下，模型不能外推到特定场景83-85。在决策或分析影像时过度依赖机器学习模型可能会导致自动化偏差86，医师对错误的警觉性可能降低。如果模型本身的可解释程度不够高，进而导致临床医师无法识别模型给出错误建议的情况，那么上述问题就尤其严重87,88。在模型预测结果中给出置信区间可能有一定帮助，但置信区间本身也有可能被错误解读89,90。因此，需要对正在使用的模型进行前瞻性的真实世界临床评估，而不仅仅是基于历史数据集进行回顾性的性能评估。

直接面向患者的机器学习应用需要有一些特别的考虑。患者可能无法验证模型制造商宣称的内容是否有高质量临床证据证实，也无法验证其建议的做法是否合理。

研究的发表和传播

建立模型的跨学科团队可能采用临床医师并不熟悉的途径发布结果。论文通常在arXiv和bioRxiv等预印服务网站在线发布91,92，并且许多模型的源代码保存在GitHub等存储库中。此外，经同行评议的许多计算机科学论文并非由传统期刊发表，而是作为会议论文集发表，例如神经信息处理系统大会（Neural Information Processing Systems，NeurIPS）和国际机器学习大会（International Conference on Machine Learning，ICML）的论文集。

结论

大量医疗数据的加速产生将从根本上改变医疗的性质。我们坚信，医患关系是为患者提供治疗的基石，通过机器学习做出的判断将丰富这一关系。我们预计，未来几年将会出现一些早期模型以及经同行评议的研究结果论文，同时监管框架和价值医疗（value-based care）的经济激励机制将有所发展，这些是我们对医学领域的机器学习持谨慎乐观态度的原因。我们对下面这个但愿不太遥远的未来充满期待：数百万临床医师为数十亿患者做出治疗决策时使用的所有医学相关数据由机器学习模型进行分析，从而帮助临床医师向所有患者提供可能的最佳治疗。

一名49岁患者使用智能手机应用程序给肩部皮疹拍了一张照片，应用程序建议患者立即与皮肤科医师预约就诊时间。保险公司自动批准直接转诊，应用程序与附近一位有经验的皮肤科医师预约一个2日内的就诊时间。预约的就诊时间自动与患者的个人日历进行核对。皮肤科医师对皮损进行活检，病理科医师对Ⅰ期黑色素瘤这一计算机辅助诊断结果进行审核，然后由皮肤科医师将其切除。

Disclosure forms provided by the authors are available with the full text of this article at NEJM.org.

译者：侯海燕，NEJM医学前沿

校对：照日格图，NEJM医学前沿

作者信息

Alvin Rajkomar, M.D., Jeffrey Dean, Ph.D., and Isaac Kohane, M.D., Ph.D.
From Google, Mountain View, CA (A.R., J.D.); and the Department of Biomedical Informatics, Harvard Medical School, Boston (I.K.). Address reprint requests to Dr. Kohane at the Department of Biomedical Informatics, Harvard Medical School, 10 Shattuck St., Boston, MA, 02115, or at isaac_kohane@harvard.edu.

参考文献

1. Bakris G, Sorrentino M. Redefining hypertension — assessing the new blood-pressure guidelines. N Engl J Med 2018;378:497-499.

2. Institute of Medicine. Crossing the quality chasm: a new health system for the twenty-first century. Washington, DC: National Academies Press, 2001.

3. Lasic M. Case study: an insulin overdose. Institute for Healthcare Improvement (http://www./education/IHIOpenSchool/resources/Pages/Activities/AnInsulinOverdose.aspx).

4. Institute of Medicine. To err is human: building a safer health system. Washington, DC: National Academies Press, 2000.

5. National Academies of Sciences, Engineering, and Medicine. Improving diagnosis in health care. Washington, DC: National Academies Press, 2016.

6. Berwick DM, Gaines ME. How HIPAA harms care, and how to stop it. JAMA 2018;320:229-230.

7. Obermeyer Z, Lee TH. Lost in thought — the limits of the human mind and the future of medicine. N Engl J Med 2017;377:1209-1211.

8. Schwartz WB. Medicine and the computer — the promise and problems of change. N Engl J Med 1970;283:1257-1264.

9. Schwartz WB, Patil RS, Szolovits P. Artificial intelligence in medicine — where do we stand? N Engl J Med 1987;316:685-688.

10. Goodfellow I, Bengio Y, Courville A, Bengio Y. Deep learning. Cambridge, MA: MIT Press, 2016.

11. Muntner P, Colantonio LD, Cushman M, et al. Validation of the atherosclerotic cardiovascular disease Pooled Cohort risk equations. JAMA 2014;311:1406-1415.

12. Clark J. Google turning its lucrative Web search over to AI machines.Bloomberg News. October 26, 2015 (https://www./news/articles/2015-10-26/google-turning-its-lucrative-web-search-over-to-ai-machines).

13. Johnson M, Schuster M, Le QV, et al. Google’s multilingual neural machine translation system: enabling zero-shot translation. arXiv. November 14, 2016 (http:///abs/1611.04558).

14. Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. arXiv. September 1, 2014 (http:///abs/1409.0473).

15. Kannan A, Chen K, Jaunzeikare D, Rajkomar A. Semi-supervised learning for information extraction from dialogue. In: Interspeech 2018. Baixas, France: International Speech Communication Association, 2018:2077-81.

16. Rajkomar A, Oren E, Chen K, et al. Scalable and accurate deep learning for electronic health records. arXiv. January 24, 2018 (http:///abs/1801.07860).

17. Escobar GJ, Turk BJ, Ragins A, et al. Piloting electronic medical record-based early detection of inpatient deterioration in community hospitals. J Hosp Med 2016;11:Suppl 1:S18-S24.

18. Grinfeld J, Nangalia J, Baxter EJ, et al. Classification and personalized prognosis in myeloproliferative neoplasms. N Engl J Med 2018;379:1416-1430.

19. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med 2019;25(1):44-56.

20. Wang P, Berzin TM, Glissen Brown JR, et al. Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study. Gut 2019 February 27 (Epub ahead of print).

21. Krause J, Gulshan V, Rahimy E, et al. Grader variability and the importance of reference standards for evaluating machine learning models for diabetic retinopathy. Ophthalmology 2018;125:1264-1272.

22. Gulshan V, Peng L, Coram M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. JAMA 2016;316:2402-2410.

23. Ting DSW, Cheung CY-L, Lim G, et al. Development and validation of a deep learning system for diabetic retinopathy and related eye diseases using retinal images from multiethnic populations with diabetes. JAMA 2017;318:2211-2223.

24. Kermany DS, Goldbaum M, Cai W, et al. Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell 2018;172(5):1122-1131.e9.

25. Poplin R, Varadarajan AV, Blumer K, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nat Biomed Eng 2018;2:158-164.

26. Steiner DF, MacDonald R, Liu Y, et al. Impact of deep learning assistance on the histopathologic review of lymph nodes for metastatic breast cancer. Am J Surg Pathol 2018;42:1636-1646.

27. Liu Y, Kohlberger T, Norouzi M, et al. Artificial intelligence-based breast cancer nodal metastasis detection. Arch Pathol Lab Med 2018 October 8 (Epub ahead of print).

28. Ehteshami Bejnordi B, Veta M, Johannes van Diest P, et al. Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer. JAMA 2017;318:2199-2210.

29. Chilamkurthy S, Ghosh R, Tanamala S, et al. Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study. Lancet 2018;392:2388-2396.

30. Mori Y, Kudo SE, Misawa M, et al. Real-time use of artificial intelligence in identification of diminutive polyps during colonoscopy: a prospective study. Ann Intern Med 2018;169:357-366.

31. Tison GH, Sanchez JM, Ballinger B, et al. Passive detection of atrial fibrillation using a commercially available smartwatch. JAMA Cardiol 2018;3:409-416.

32. Galloway CD, Valys AV, Petterson FL, et al. Non-invasive detection of hyperkalemia with a smartphone electrocardiogram and artificial intelligence. J Am Coll Cardiol 2018;71:Suppl:A272-A272. abstract.

33. Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017;542:115-118.

34. Rajkomar A, Yim JWL, Grumbach K, Parekh A. Weighting primary care patient panel size: a novel electronic health record-derived measure using machine learning. JMIR Med Inform 2016;4(4):e29-e29.

35. Schuster MA, Onorato SE, Meltzer DO. Measuring the cost of quality measurement: a missing link in quality strategy. JAMA 2017;318:1219-1220.

36. Beam AL, Kohane IS. Big data and machine learning in health care. JAMA 2018;319:1317-1318.

37. LeCun Y, Bengio Y, Hinton G. Deep learning. Nature 2015;521:436-444.

38. Hinton G. Deep learning — a technology with the potential to transform health care. JAMA 2018;320:1101-1102.

39. Halevy A, Norvig P, Pereira F. The unreasonable effectiveness of data. IEEE Intell Syst 2009;24:8-12.

40. Bates DW, Saria S, Ohno-Machado L, Shah A, Escobar G. Big data in health care: using analytics to identify and manage high-risk and high-cost patients. Health Aff (Millwood) 2014;33:1123-1131.

41. Rajkomar A, Oren E, Chen K, et al. Scalable and accurate deep learning with electronic health records. npj Digital Medicine 2018;1(1):18-18.

42. De Fauw J, Ledsam JR, Romera-Paredes B, et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat Med 2018;24:1342-1350.

43. Mandl KD, Szolovits P, Kohane IS. Public standards and patients’ control: how to keep electronic medical records accessible but private. BMJ 2001;322:283-287.

44. Mandl KD, Kohane IS. Time for a patient-driven health information economy? N Engl J Med 2016;374:205-208.

45. Mandel JC, Kreda DA, Mandl KD, Kohane IS, Ramoni RB. SMART on FHIR: a standards-based, interoperable apps platform for electronic health records. J Am Med Inform Assoc 2016;23:899-908.

46. Hersh WR, Weiner MG, Embi PJ, et al. Caveats for the use of operational electronic health record data in comparative effectiveness research. Med Care 2013;51:Suppl 3:S30-S37.

47. McGlynn EA, McDonald KM, Cassel CK. Measurement is essential for improving diagnosis and reducing diagnostic error: a report from the Institute of Medicine. JAMA 2015;314:2501-2502.

48. Institute of Medicine, National Academies of Sciences, Engineering, and Medicine. Improving diagnosis in health care. Washington, DC: National Academies Press, 2016.

49. Das J, Woskie L, Rajbhandari R, Abbasi K, Jha A. Rethinking assumptions about delivery of healthcare: implications for universal health coverage. BMJ 2018;361:k1716-k1716.

50. Reis BY, Kohane IS, Mandl KD. Longitudinal histories as predictors of future diagnoses of domestic abuse: modelling study. BMJ 2009;339:b3677-b3677.

51. Kale MS, Korenstein D. Overdiagnosis in primary care: framing the problem and finding solutions. BMJ 2018;362:k2820-k2820.

52. Lindenauer PK, Lagu T, Shieh M-S, Pekow PS, Rothberg MB. Association of diagnostic coding with trends in hospitalizations and mortality of patients with pneumonia, 2003-2009. JAMA 2012;307:1405-1413.

53. Slack WV, Hicks GP, Reed CE, Van Cura LJ. A computer-based medical-history system. N Engl J Med 1966;274:194-198.

54. Ford I, Norrie J. Pragmatic trials. N Engl J Med 2016;375:454-463.

55. Frieden TR. Evidence for health decision making — beyond randomized, controlled trials. N Engl J Med 2017;377:465-475.

56. Ross C, Swetlitz I, Thielking M, et al. IBM pitched Watson as a revolution in cancer care: it’s nowhere close. Boston: STAT, September 5, 2017 (https://www./2017/09/05/watson-ibm-cancer/).

57. Fiore LD, Lavori PW. Integrating randomized comparative effectiveness research with patient care. N Engl J Med 2016;374:2152-2158.

58. Schneeweiss S. Learning from big health care data. N Engl J Med 2014;370:2161-2163.

59. Institute of Medicine. The learning healthcare system: workshop summary. Washington, DC: National Academies Press, 2007.

60. Erickson SM, Rockwern B, Koltov M, McLean RM. Putting patients first by reducing administrative tasks in health care: a position paper of the American College of Physicians. Ann Intern Med 2017;166:659-661.

61. Hill RG Jr, Sears LM, Melanson SW. 4000 Clicks: a productivity analysis of electronic medical records in a community hospital ED. Am J Emerg Med 2013;31:1591-1594.

62. Sittig DF, Murphy DR, Smith MW, Russo E, Wright A, Singh H. Graphical display of diagnostic test results in electronic health records: a comparison of 8 systems. J Am Med Inform Assoc 2015;22:900-904.

63. Mamykina L, Vawdrey DK, Hripcsak G. How do residents spend their shift time? A time and motion study with a particular focus on the use of computers. Acad Med 2016;91:827-832.

64. Oxentenko AS, West CP, Popkave C, Weinberger SE, Kolars JC. Time spent on clinical documentation: a survey of internal medicine residents and program directors. Arch Intern Med 2010;170:377-380.

65. Arndt BG, Beasley JW, Watkinson MD, et al. Tethered to the EHR: primary care physician workload assessment using EHR event log data and time-motion observations. Ann Fam Med 2017;15:419-426.

66. Sinsky C, Colligan L, Li L, et al. Allocation of physician time in ambulatory practice: a time and motion study in 4 specialties. Ann Intern Med 2016;165:753-760.

67. Howe JL, Adams KT, Hettinger AZ, Ratwani RM. Electronic health record usability issues and potential contribution to patient harm. JAMA 2018;319:1276-1278.

68. Lee VS, Blanchfield BB. Disentangling health care billing: for patients’ physical and financial health. JAMA 2018;319:661-663.

69. Haynes AB, Weiser TG, Berry WR, et al. A surgical safety checklist to reduce morbidity and mortality in a global population. N Engl J Med 2009;360:491-499.

70. Steinhubl SR, Kim K-I, Ajayi T, Topol EJ. Virtual care for improved global health. Lancet 2018;391:419-419.

71. Gabriels K, Moerenhout T. Exploring entertainment medicine and professionalization of self-care: interview study among doctors on the potential effects of digital self-tracking. J Med Internet Res 2018;20(1):e10-e10.

72. Morawski K, Ghazinouri R, Krumme A, et al. Association of a smartphone application with medication adherence and blood pressure control: the MedISAFE-BP randomized clinical trial. JAMA Intern Med 2018;178:802-809.

73. de Jong MJ, van der Meulen-de Jong AE, Romberg-Camps MJ, et al. Telemedicine for management of inflammatory bowel disease (myIBDcoach): a pragmatic, multicentre, randomised controlled trial. Lancet 2017;390:959-968.

74. Denis F, Basch E, Septans AL, et al. Two-year survival comparing web-based symptom monitoring vs routine surveillance following treatment for lung cancer. JAMA 2019;321(3):306-307.

75. Fraser H, Coiera E, Wong D. Safety of patient-facing digital symptom checkers. Lancet 2018;392:2263-2264.

76. Elmore JG, Barnhill RL, Elder DE, et al. Pathologists’ diagnosis of invasive melanoma and melanocytic proliferations: observer accuracy and reproducibility study. BMJ 2017;357:j2813-j2813.

77. Gianfrancesco MA, Tamang S, Yazdany J, Schmajuk G. Potential biases in machine learning algorithms using electronic health record data. JAMA Intern Med 2018;178:1544-1547.

78. Rajkomar A, Hardt M, Howell MD, Corrado G, Chin MH. Ensuring fairness in machine learning to advance health equity. Ann Intern Med 2018;169:866-872.

79. Institute of Medicine. Unequal treatment: confronting racial and ethnic disparities in health care. Washington, DC: National Academies Press, 2003.

80. Shuren J, Califf RM. Need for a national evaluation system for health technology. JAMA 2016;316:1153-1154.

81. Kesselheim AS, Cresswell K, Phansalkar S, Bates DW, Sheikh A. Clinical decision support systems could be modified to reduce 'alert fatigue’ while still minimizing the risk of litigation. Health Aff (Millwood) 2011;30:2310-2317.

82. Auerbach AD, Neinstein A, Khanna R. Balancing innovation and safety when integrating digital tools into health care. Ann Intern Med 2018;168:733-734.

83. Amarasingham R, Patzer RE, Huesch M, Nguyen NQ, Xie B. Implementing electronic health care predictive analytics: considerations and challenges. Health Aff (Millwood) 2014;33:1148-1154.

84. Sniderman AD, D’Agostino RB Sr, Pencina MJ. The role of physicians in the era of predictive analytics. JAMA 2015;314:25-26.

85. Krumholz HM. Big data and new knowledge in medicine: the thinking, training, and tools needed for a learning health system. Health Aff (Millwood) 2014;33:1163-1170.

86. Lyell D, Coiera E. Automation bias and verification complexity: a systematic review. J Am Med Inform Assoc 2017;24:423-431.

87. Cabitza F, Rasoini R, Gensini GF. Unintended consequences of machine learning in medicine. JAMA 2017;318:517-518.

88. Castelvecchi D. Can we open the black box of AI? Nature 2016;538:20-23.

89. Jiang H, Kim B, Guan M, Gupta M. To trust or not to trust a classifier. In: Bengio S, Wallach H, Larochelle H, Grauman K, Cesa-Bianchi N, Garnett R, eds. Advances in neural information processing systems 31. New York: Curran Associates, 2018:5541-52.

90. Cohen IG, Amarasingham R, Shah A, Xie B, Lo B. The legal and ethical concerns that arise from using complex predictive analytics in health care. Health Aff (Millwood) 2014;33:1139-1147.

91. arXiv.org Home page (https:///).

92. bioRxiv. bioRxiv: The preprint server for biology (https://www./).

《NEJM医学前沿》