【原】GPT-4能成为医生吗？

DrugAI 2023-04-15 发布于韩国

展开全文

今天为大家介绍的是来自微软和OpenAI的一篇讨论GPT-4在医学问答场景下应用的论文。GPT-4是一种通用模型，没有通过训练或工程化来解决临床任务。该论文对GPT-4在医学能力考试和基准数据集上的表现进行了全面评估，并探讨了模型输出概率的校准，以及其在医学教育等多个方面中的潜在应用。

大型语言模型（LLMs）展示了在各种领域中生成和解释序列的卓越能力，例如自然语言、计算机代码和蛋白质序列。模型在各种基准测试中的得分通常随着模型大小、数据集大小和训练计算量的增加而改善。这些经验结果与理论分析相一致，表明神经模型的推断能力需要规模的支持。

LLM在没有专门调整的情况下能够为广泛的专业任务做出有用的推断。通用LLMs在使用少量或甚至零提示的情况下的表现，凸显了它们在各种问题类型、多专业领域和学科上协助任务的潜力。在这里，作者比较最近发布的GPT-4模型（纯文本版本）与其前辈GPT系列在医学挑战问题上的表现。文章的目标是为GPT-4建立“开箱即用”的性能指标。为此，作者使用了最简单的提示（zero-shot和5-shot提示），发现GPT-4在没有任何精细提示技巧或领域特定的微调的情况下远超其前辈模型。

数据集的选取

该研究考虑了六个不同方面的医学知识和推理数据集，其中两个数据集源自National Board of Medical Examiners (NBME)，包括USMLE Sample Exam 和USMLE Self Assessments。另外四个数据集包括MedQA、PubMedQA、MedMCQA和MMLU，它们是基于医学文献、临床案例和用户生成内容的公开基准测试数据集。

提示方式

研究采取的模板，以及一个zero-shot的例子如上图所示。

医疗能力考试

本文分析了在美国医学许可考试（USMLE）的两个官方实践材料集上的模型表现。USMLE是一项分三步的考试计划，旨在评估临床能力，每一步都标志着医学培训的一个里程碑。USMLE考试的第一步考试内容涵盖核心临床知识，包括病理学和生理学等。第二步探究考生对诊断和患者管理的了解来测试临床理解能力。第三步是USMLE序列的最终考试，该考试评估医学住院医师在无监督医疗实践中应用其工作知识的能力，通过第三步的表现是被授权独立执业医学服务的必要条件。

GPT-4在官方的美国医学许可考试（USMLE）问题上表现出了显著的改进（具体结果如上述表格所示），在与GPT-3.5相比时，两个考试的得分都提高了30个百分点以上。USMLE网站指出，虽然具体的及格门槛每年都会有所不同，但考生必须回答大约60%的多项选择题才能获得及格分数。尽管早期的模型如GPT-3.5接近及格门槛，但GPT-4在这方面有了很大的进步。

GPT-4模型（文本模型）在USMLE自我评估和样例考试中的表现特别令人惊讶，因为这两个考试在问题中经常使用媒体元素（例如图表、照片、表格），但这些元素并不传递给模型。在手动标注的练习中，作者发现自我评估中有314道涉及媒体的问题，总共2173道问题（数据集的14.4%），而样例考试中有49道涉及媒体的问题，总共376道问题（数据集的13.0%）。区分含有媒体元素和纯文本问题之后，模型的表现如上表所示。尽管无法看到相关的图像，仅有文本的GPT-4模型通常能够运用逻辑推理和考试策略来选择合理的答案选项。

医学挑战基准测试

作者提供了来自MultiMedQA的四个多项选择题数据集的基准测试。这些基准测试包括MedQA、PubMedQA、MedMCQA和MMLU的医学组成部分。MultiMedQA还包含三个未在此处测试的数据集，它们是LiveQA、MedicationQA和HealthSearchQA；所有这些数据集都需要进行详尽的专家分析以确保回答的准确性。

模型具体结果如上表所示，值得注意的是，尽管有些数据集为非英语数据集，GPT-4效果仍然非常好。

模型校准

本文讨论了 GPT-4 的校准性，即预测的正确概率和真实结果之间的一致性。在医学等高风险领域应用中，概率校准是至关重要的。一个校准良好的模型可以提供可信赖和可解释的概率，反映出模型的置信度，在向医疗保健专业人士和其他信息使用者提供诊断和治疗方案等信息时，这一点至关重要。如上图所示，GPT-4相比于前作，校准性能有显著的提升。文章在此处只讨论在多项选择题回答的情况下进行校准验证，因为这里可以让模型对每个选项进行打分，便于量化。衡量生成模型的长格式文本生成方面仍然是一个开放的研究领域，如何评估文本生成方面的校准性仍需考量。

GPT-4的扩展应用

该研究还通过将医学问题扩展到交互式会话中，探索了GPT-4的其他能力。除了提供有关模型能力的讨论外，这种扩展还展示了模型新形式的教育应用和临床应用的方向。

作者用事例展示了模型在医学问题上的：（1）综合推理选取正确答案的能力；（2）为学生讲解错误答案的能力；（3）推理学生为什么会选择错误答案的能力；（4）修改问题背景使得错误答案变成正确答案的能力。详情请阅读原文。

GPT-4在实际应用中的风险

生成答案存在错误：在医疗保健领域引入各种形式的自动化，包括机器学习的使用，必须非常谨慎。我们需要进一步的研究来解决模型输出的真实性问题。研究方向包括利用搜索和检索来帮助将生成的内容与文献联系起来，进行自一致性检查等。医疗保健提供者如果依赖 GPT-4 和其他模型的信息，需要遵守最高的验证标准。需要制定和分享医疗专业人士的质量保证最佳实践，以确保其安全有效的使用。

模型偏见：我们对大规模语言模型所累积的偏见，以及在不同类型的医疗提示和生成中出现公平性问题的理解非常有限。在没有研究的情况下，我们必须对临床实践和研究中的偏见保持警惕，尤其是针对种族、社会经济背景、性别和其他因素，这些因素贯穿于用于训练大规模语言模型的语料库。

工作流程、任务和专业方面的影响：GPT-4在USMLE考试和其他医学工作量上的表现表明，如果得到适当的专家监督，它们可以为实现精准临床医学做出贡献。可以利用GPT-4及其后继模型提供医疗从业者分析、提醒和决策支持，包括协助从患者病史、体征和实验室结果中制定和修订鉴别诊断等。

社会问题：GPT-4的能力可以对医学生涯的选择、住院医师培训和最终专业的选择产生广泛社会影响。人工智能在医疗领域日益增长的能力可能会导致医学专业中人类智力的价值被降低。医生可能会担心医学专业的实践或价值发生重大转变。AI在医学专业中的日益增长的能力可能会影响医学生涯的选择，从而改变对哪些任务依赖于真正的人类智力的看法。

对未来的影响：GPT-4在医学挑战问题上的表现，揭示了大规模模型在处理复杂现实问题方面的潜力，未来还将继续进步。LLMs的进展不仅对医学有影响，还会对法律、银行、工程、会计等众多知识密集型职业产生影响，因为它可能改变现有的技术教育和培训体系，以及职业发展模式。

结论

文章对GPT-4、GPT-3.5和Flan-PaLM 540B在医学能力考试和基准数据集上进行了比较评估。结果发现，GPT-4明显优于GPT-3.5和Flan-PaLM 540B，而且在MultiMedQA数据集上也表现出色。作者还探讨了模型输出概率的校准，强调了校准对医学应用的重要性。最后，作者讨论了GPT-4在医学应用中的更广泛影响。尽管GPT-4效果如此出色，考虑到可能存在的错误和在实际场景中评估性能的挑战，在实践中仍需审慎起能力，我们仍需开发和评估其适当用途。

参考资料

https:///pdf/2303.13375.pdf