论文速读 · 第19期 | 大模型与医学人工智能

天承办公室 2024-04-25 发布于北京

展开全文

颠覆性技术如大模型和人工智能正以迅猛的速度改变医疗健康领域。《论文速读》栏目旨在跟踪这些领域的最新进展，整理全球学术期刊中的前沿论文，帮助读者洞悉热门领域的最新趋势和突破。基准测试对于评估模型性能至关重要。本期内容包括了几个用于评估医学大数据模型性能的基准测试框架和数据集，以及知识图、多代理、模型编辑等技术在医学大模型领域的应用。期待与您共同探索大模型和医学人工智能领域的前沿科研成果。

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

◎ 标题：对回答和解释具有挑战性的医学问题的大型语言模型进行基准测试

◎ 摘要：大型语言模型（LLM）已经在回答医学问题上表现出了令人印象深刻的表现，例如通过医学执照考试的分数。然而，医学委员会考试题或一般临床问题并未捕获到真实临床案例的复杂性。此外，缺乏参考解释意味着我们无法轻易评估模型决策的推理，这是支持医生进行复杂医学决策的关键组成部分。为了解决这些挑战，我们构建了两个新的数据集：JAMA临床挑战和Medbullets。JAMA临床挑战由基于挑战性临床案例的问题组成，而Medbullets包括USMLE Step 2&3风格的临床问题。两个数据集都被构造为多选题解答任务，每个问题都附有一份由专家编写的解释。我们使用各种提示在两个数据集上评估四个LLM。实验表明，我们的数据集比以前的基准测试更难。模型生成解释的自动和人类评估之间的不一致突显了需要开发新的度量标准以支持未来关于可解释医学问答（QA）的研究。

◎ 作者：Hanjie Chen, Zhouxiang Fang, et al.

◎ 发表日期：2024-02-29

◎ 发表期刊：arXiv preprint

◎ 原文链接：https:///abs/2402.18060

Figure: Prediction accuracy (%) of the four LLMs across the medical domains of JAMA Clinical Challenge using zero-shot X→Y prompting. From left to right, these domains are arranged in descending order based on the number of examples in each domain.

Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models

◎ 标题：编辑医学大型语言模型的事实知识和解释能力

◎ 摘要：模型编辑的目标是精确修改大型语言模型（LLM）在特定知识上的行为，同时保持与之无关的知识不变。已经证明，它在解决LLM中的幻觉和过时问题上是有效的。因此，它可以提升LLM在许多关键领域（例如，医疗领域）的应用，其中幻觉是不可容忍的。在本文中，我们提出了两种模型编辑研究，并在医疗领域对它们进行验证：（1）直接编辑事实性的医疗知识和（2）编辑对事实的解释。同时，我们观察到，当前的模型编辑方法在处理医疗知识的专业性和复杂性上存在困难。因此，我们提出了MedLaSA，一种新颖的逐层可扩展适配器策略，用于医疗模型编辑。它使用因果追踪来识别神经元中知识的精确位置，然后在LLM的密集层中引入可扩展的适配器。这些适配器根据对应的特定知识分配缩放值。为了评估编辑的影响，我们建立了两个基准数据集，并引入了一系列具有挑战性和全面性的指标。在医疗LLM上的大量实验证明了MedLaSA的编辑效率，而不影响未被编辑的无关知识。

◎ 作者：Derong Xu, Ziheng Zhang, et al.

◎ 发表日期：2024-02-28

◎ 发表期刊：arXiv preprint

◎ 原文链接：https:///abs/2402.18099

Figure：The overview of our proposed MedLaSA. We demonstrate the process of inputting individual piece of data. This process is applicable to both editing and non-editing knowledge. The activation scale of adapters in different layers varies depending on the knowledge in data, ensuring that unrelated knowledge is not significantly impacted after the editing process.

BioLORD-2023: semantic textual representations fusing large language models and clinical knowledge graph insights

◎ 标题：BioLORD-2023：将大型语言模型和临床知识图见解结合的语义文本表示

◎ 摘要：在这项研究中，我们探究了大型语言模型（LLM）在生物医学和临床领域的语义模型训练中补充生物医学知识图的可能性。我们利用统一医学语言系统知识图的丰富资源，采用尖端的LLM，提出了一种新的最先进的方法，用于获取高保真度的生物医学概念和句子的表现，包括3个步骤：改进的对比学习阶段，新颖的自我提炼阶段，以及权重平均阶段。通过对多样化的下游任务进行严格评估，我们在语义文本相似性 (STS)，生物医学概念表示 (BCR)和临床命名实体链接等方面，显示性能的大幅度提高，跨越15+数据集。除了我们的新的英语生物医学模型，我们还提炼并发布了与50+种语言兼容并在7种欧洲语言上进行微调的多语言模型。许多临床研究工作可以从我们最新的模型中受益，为全球的生物信息学研究者开辟了新的途径。因此，我们希望看到BioLORD-2023成为未来生物医学应用的宝贵工具。

◎ 作者：François Remy, Kris Demuynck, et al

◎ 发表日期：2024-02-27

◎ 发表期刊：Journal of the American Medical Informatics Association

◎ 原文链接：https://academic./jamia/advance-article/doi/10.1093/jamia/ocae029/7614965

Figure：Compared to BioLORD-2022 (left), BioLORD-2023 involves a more advanced training strategy, composed of 3 phrases: a contrastive phase, a self-distillation phase, and a weight-averaging phase.

EHRNoteQA: A Patient-Specific Question Answering Benchmark for Evaluating Large Language Models in Clinical Settings

◎ 标题：EHRNoteQA：用于评估临床环境中大型语言模型的病人特定问题回答基准

◎ 摘要：本研究介绍了EHRNoteQA，这是一个针对临床环境中的大型语言模型（LLMs）评估的新颖的病人特定问题回答基准。基于MIMIC-IV电子健康记录（EHR），一个由三名医学专业人员组成的团队策划了包含962个唯一问题的数据集，每个问题都与特定病人的EHR临床记录相联系。EHRNoteQA与现有的基于EHR的基准的独特之处在于：首先，它是第一个采用多选问题回答格式的数据集，这种设计选择在自动评估的上下文中有效地评估了LLMs，与其他格式相比，得到了可靠的分数。其次，它需要分析多个临床记录才能回答一个问题，反映了真实世界临床决策的复杂性，其中医生们需要复查大量的病人历史记录。我们在各种大型语言模型上的全面评估显示，他们在EHRNoteQA上的分数与他们在解答真实世界医学问题时的表现更为接近，而这些问题是由临床医生评估的，而不是从其他LLM基准得到的分数。这凸显了EHRNoteQA在评估医学应用中的LLMs的重要性，在促进LLMs融入医疗系统中将起到关键作用。

◎ 作者：Sunjun Kweon, Jiyoun Kim, et al

◎ 发表日期：2024-02-25

◎ 发表期刊：arXiv preprint

◎ 原文链接：https:///abs/2402.16040

Figure：An overview of the construction process for the EHRNoteQA dataset, which involves three key stages: 1) Sampling Clinical Notes from MIMIC-IV database, 2) Data Generation using GPT-4, and 3) Modifications by Clinicians.

Towards Generalist Biomedical AI

◎ 标题：全科生物医学人工智能迈进

◎ 摘要：医学需要解释和整合多种数据，如文本、图像和基因组学。全科生物医学人工智能系统能更好地编码、整合和解释这些数据，从而推动科学发现到护理交付。我们推出了MultiMedBench，一种多模态生物医学基准，包括14个任务。我们还介绍了Med-PaLM多模态，能灵活处理生物医学数据，包括临床语言、成像和基因组学。Med-PaLM在所有MultiMedBench任务上的表现超过了专家模型。在评估胸部X光报告时，临床医生对40.50%的Med-PaLM多模态报告表达了偏好。尽管需要进一步的验证和理解，但我们的结果是全科生物医学人工智能系统发展的一大步。（由Alphabet Inc. 和/或其子公司资助）

◎ 作者：Tao Tu, Shekoofeh Azizi, Danny Driess, et al

◎ 发表日期：2024-02-22

◎ 发表期刊：NEJM AI

◎ 原文链接：http://dzjrf./57

Table：Performance Comparison on MuliMedBench

Benchmarking Large Language Models on Communicative Medical Coaching: a Novel System and Dataset

◎ 标题：在沟通式医疗指导上对大型语言模型进行基准测试：一种新的系统和数据集

◎ 摘要：传统的自然语言处理（NLP）在医疗保健中的应用主要集中在以病人为中心的服务上，通过医疗对话系统增强病人的互动和护理服务。然而，NLP在如沟通式医疗指导等领域对无经验医生的潜在利益尚未得到大面积的探索。我们介绍了“ChatCoach”，一种集成的人工智能合作框架。在此框架中，病人代理和教练代理同时协助医学学习者在咨询过程中练习他们的医疗沟通技巧。与传统的对话系统不同，ChatCoach提供了一个模拟环境，医生可以在这个环境中与病人代理进行医疗对话。同时，教练代理向医生提供实时反馈。为了构建ChatCoach系统，我们开发了一个数据集，并整合了大型语言模型，如ChatGPT和Llama2，以评估它们在沟通式医疗教练任务中的有效性。我们的比较分析显示，经过指令调优的Llama2显著优于ChatGPT的提示方式。

◎ 作者：Hengguan Huang, Songtao Wang, et al

◎ 发表日期：2024-02-08

◎ 发表期刊：arXiv preprint

◎ 原文链接：https:///abs/2402.05547

Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias

◎ 标题：通过多代理对话提高诊断准确性：利用大型语言模型减轻认知偏误

◎ 摘要：临床决策中的认知偏误对诊断错误和患者结果的不理想产生了重大影响。在医学领域，解决这些偏误是一项艰巨的挑战。本研究探讨了大型语言模型（LLMs）在通过使用多代理框架来减轻这些偏误中的作用。我们通过多代理对话模拟临床决策过程，并评估其在提高诊断准确性方面的有效性。方法：从文献中确定了16个已发表和未发表的病例报告，在这些报告中，认知偏误导致了误诊。在多代理系统中，我们利用GPT-4 Turbo来促进四个模拟代理之间的交互，以复制临床团队动态。每个代理都有一个明确的角色：1）在考虑讨论后做出初步和最终诊断，2）作为魔鬼的辩护人并纠正确认和锚定偏误，3）作为辅导员和讨论的促进者以减少过早结束偏误，和4）记录和总结发现。对80次模拟的初步诊断，最重要的鉴别诊断和最后两个鉴别诊断的准确性进行了评估。在评估初步和最终诊断的80个回应中，初步诊断的准确性为0%（0 / 80），但在多代理讨论后，最重要的鉴别诊断的准确性增加到71.3%（57 / 80），以及对最后两个鉴别诊断，达到80.0%（64 / 80）。即使在初始调查造成误导的情况下，该系统也显示出重新评估和纠正误解的能力。本研究的结论显示，LLM驱动的多代理对话系统在提高诊断困难医疗场景的诊断准确性方面表现出了希望。

◎ 作者：Yu He Ke, Rui Yang, et al

◎ 发表日期：2024-01-26

◎ 发表期刊：arXiv preprint

◎ 原文链接：https:///abs/2401.14589