ChatGPT类正确用于医学的18个办法

平安是福hmb8lw 2023-08-22 发布于四川

展开全文

医生A，本来想用GPT代写一篇论文，结果生成的效果不理想，医生B却生成了还不错的论文。护士C要讲课，本来想要用GPT生成一个医学课件，可是效果也不好，护士D却生成一个还不错的医学课件。这是因为使用GPT是有技巧的。这篇文章主要对医疗工作者进行科普，小编会用比较通俗的语言进行讲解。GPT虽然不可迷信，但是它可以作为人们寻求答案的一种有效的参考工具。【在这里必须强调的是，小编可没有叫读者照抄GPT生成的的东西，而是作为参考。】在讲述使用方法之前，先讲讲啥叫GPT。随着ChatGPT爆火，不明概念的老百姓把聊天软件机器人都叫做ChatGPT。其实老百姓口中的chatGPT有两种，一种是用了美国的ChatGPT的问答链接作为核心，然后围绕这个核心做套壳聊天产品；另外一种其实不是美国本土ChatGPT，而是国产类的GPT。人工智能专业的人员，把这种新型的生成式自然语言处理技术叫做大语言模型（LLM）。无论是美国本土ChatGPT还是咱们国内的国产GPT，向GPT提问问题都是有一定的技巧的。掌握了正确的提问技巧，能让你更好地找到问题的答案。人工智能专业人员，有的把提问叫做提示语、Prompt。以下是技巧介绍:

1.指令型Prompt。即交代GPT做某任务。比如：请帮我生成一篇作文、请帮我写过年祝福语、请帮我写一篇年度医生考核总结、请帮我写一份护士副高竞聘书.........

2.角色扮演Prompt。交代GPT做任务之时，最好在前面说一下你是什么身份什么角色。因为同样的问题，GPT会针对不同的人回答不同的答案。(这个与GPT的生成式原理概率有关,具体下面几篇文字再讲) 。GPT是把不同领域的知识连接起来的东西，你说明你是什么身份，GPT就会切换到不同的频道。比如说：“你是一个医生，现在遇见一个吸毒的艾滋病病人，请问工作中需要注意什么问题。“ GPT会往诊疗方向回答问题。比如说：“你是一个护士，现在遇见一个吸毒的艾滋病病人，请问工作中需要注意什么问题。“ GPT会往护理方向回答问题。再举例，现在你遇到一个外国病人，语言是法语，你不会交流，只能写字，可以这样说：“你是一个法语翻译人员，请帮我把以下这段中文翻译成法语，要求通俗易懂。”

3.字数限制。并不是所有的文本都需要长篇大论，GPT的生成文字，可以要求它大概生成多少个字。比如说，“请帮我写一篇年度医生考核总结，字数在800个字左右”、“请帮我针对XXX医疗不良事件，生成字数在200个字左右的总结”。一般来说，GPT生成的文字字数在几百到1千左右，效果比较好，超过1千个字之后，文字的质量可能会差一些，有可能写着写着，它就忘记了上下文的联系，就跑题了。之所以出现这个情况，跟GPT的制造原理有关，开发人员对GPT的开发，早期是一问一答一问一答进行训练，而训练过程中所涉及的文字字数，大概也在1千左右（针对中文来说，英文有可能是2千字母）。有个别的GPT，有效字符长度，还把你提问的问句长度算在内。人工智能专业人员把这个情况叫做注意力机制的有效长度，他们会关心大概多少Token。

4.发散性提问，分几步生成。有读者会问，既然有效长度在1千个字左右，但是一篇论文的长度可不止1千个字，那怎么办。首先叫GPT围绕某个点生成某几个分点，再叫GPT围绕这几个分点再生成几段话。举个例子：第一步，“请围绕饼博酚生成一个论文标题”. GPT生成”使用饼博酚进行镇静的有效性及安全性评估” 。第二步，请围绕《使用饼博酚进行镇静的有效性及安全性评估》生成一篇论文大纲。GPT生成的大纲如下“I. 引言 A. 研究背景和意义 B. 研究目的和问题陈述 C. 研究方法概述 II. 饼博酚的药理特性和临床应用 A. 饼博酚的化学结构和机理........” 第三步，根据大纲中某句话生成文字，比如说：“以下是论文《使用饼博酚进行镇静的有效性及安全性评估》的研究背景和意义，请围绕研究背景和意义生成200个字的段落”。比如说“以下是论文《使用饼博酚进行镇静的有效性及安全性评估》的研究目的和问题陈述，请围绕研究背景和意义生成400个字的段落”.以此类推。把主任务分成几个小任务，在根据几个小任务再生成文字。这样凑来凑去，就可凑出超出1000多个字也没问题。

5.生成医学PPT与Markdown代码。并不是所有的医务人员都需要掌握计算机代码，有一种代码也许对医务人员有用，叫做Markdown代码，它与PPT课件的生成有关。医务人员不需要掌握，只需要会复制黏贴可以了。Prompt举例如下：你是一个医生，请围绕“神上仙素的各种使用方法与剂量”生成一个PPT大纲，再围绕此PPT大纲生成Markdown代码。把Markdown代码复制到Markdown官网即可生成医学PPT。（第5点小编平时做得少，在这里不多讲，读者可自行百度自学。在这里提到第5点的意义，是想让读者大概了解一下，哦，这个GPT也能生成PPT呀）

6.论文润色、论文翻译、论文发现拼写错误。prompt可以这样写，你是一个医生/护士，你的论文题目是《XXXX》，以下是论文里的其中某段话，请为这段话进行润色、英文翻译或请发现这段话是否有拼写错误需要修改，请修改。“XXXXX”.。把XXXX替换为你写的论文内容。请注意，XXXX字数不要超过1千个字，在第三点有提到为什么。就这样分段分段完成任务。

7.论文降低重复率。在所有写论文的任务中，论文降重的任务是最难的。并不是你叫GPT帮你降重就能降重。这个技巧暂不在本文说，请关注本文微信公众号，并加小编为微信好友。

8.因材施问。LLM的生成原理和方法都差不多。但是不同类型的GPT，功能不一样，有些是针对某个领域开发的GPT。针对某些具体的医疗方法，你问ChatGPT“阿莫西林的使用剂量”，ChatGPT不一定回答你，它会教你去看医生。为什么会这样，因为某些话题比较敏感，回答错了开发者要负法律责任。这个问题问MedGPT，MedGPT本身就是为医学开发的，它可能会告诉你。除了MedGPT之外，还有HuatuoGPT、ClinicalGPT、....等等。问一些比较细的医疗问题，最好找专门为医疗定制的GPT。

9.总结性提问。跟第4点相反，这个叫做总结性提问。当医生、护士除了治病护理，有时候会有某些文书报告/某些会议，需要对你之前的话进行总结。promt可以这么写：以下这段话是某报告/会议的内容，请为这段话写总结/概要，XXXXXX。XXX为你之前写的正文。

10.罗列式指令1，帮我做XXX任务，要求生成任务多少条，这种指令能让GPT的回答更有条理性。比如说：“医务人员经常熬夜，熬夜容易伤身体，请为此提出6条建议。” GPT的回答就会1... 2... 3... 4... 5... 6....这样列出6条建议。

11.罗列式指令2，这另外一类指令，有点像考试中共用一个题干的简答题。比如说：近年来医患关系紧张，请回答以下两个问题：1.什么是医患关系？2.医患关系紧张的原因是啥？3.如何解决医患关系紧张问题？

12.选择题式提问。GPT是可以直接问选择题的。比如说：以下哪种药是麻醉镇静药？A力某东 B力某西 C力某南 D力某北

13.书面式提问。问问题的时候，最好用书面语言提问，而不用土词。错误示例，“心肺复苏时皮球每分捏多少次”、“证肾怎么用，负肾怎么用”、“羊奶怎么用”、“右丑怎么用”。正确示例，“心肺复苏时呼吸球囊每分捏多少次”、“神上仙素怎么用，去甲神上仙素怎么用”、“饼博酚怎么用”、“右丑托咪定怎么用”。为什么GPT听不懂你说的土词？因为GPT在开发发明的时候，研发人员给GPT的语言训练材料多数都是书面上的语句，GPT不学习土词。有读者会问为什么不给GPT训练土词？因为开发GPT的成本非常高，研发人员一般都采用高质量语言材料进行训练而极少数使用土话土词。GPT每一个字的生成，是跟概率计算有关系的。问一个问题之前，需要想一下，你问的词语文字，GPT训练的时候有没大概率出现。比如说，“吹滴答”这个词，是潮州人地方方言吹唢呐，暗指死亡的意思。不必说问美国版本ChatGPT，就算问百度的GPT，它也不明白真正的含义。比如说，粤语“猴赛雷”[好厉害的意思]，GPT也不一定听得懂。罕见的词语，要猜测GPT开发人员在开发的时候，是否有采用。

14.加入“一步一步思考”。叫GPT阐述或者详细讨论某些事物的时候，加入“一步一步思考”、“让我们深思一下”类似语句，可以激发GPT的深思模式，可以使GPT的回答的逻辑感和条理性更强。比如说，“让我们一步一步思考，人工智能是对医疗行业有什么样的冲击的？” “让我们深思一下，人工智能给医疗行业带来什么样的变化？”

15.对话轮数设置。GPT的回答联系上下文进行推理用的。举例：设置了2轮对话。问题一:说一个阿起裤安的拮抗剂。回答一：欣撕的明和阿拖品。(这就完成了第一轮对话。) 问题二：咪达坐轮呢？回答二：福马西泥。(这就完成了第二轮对话) 在这里需要强调的是， “问题二：咪达坐轮呢” 这句话，GPT本来不明白你想问什么，但是它联系了上文，既第一轮对话，就明白你的“咪达坐轮呢”是问咪达坐轮的拮抗剂。再对比一下，如果把对话轮数设置为1 。问题一：……回答一：…… 问题二:咪达坐轮呢？GPT每次记得1轮对话，它没有联系上文，所以'咪达坐轮呢'这句话，它不知道你想问咪达坐轮的什么问题。除了设置有限对话轮数1和2之外，还可以设置其他数量，GPT联系上文，根据前面多少轮对话和现在这轮对话的问题，去猜测现在问的问题是想问什么。

16.温度设置。在AI界里面，有个词叫做温度，这个温度不是物理学上的温度，但它是从物理学的温度衍生而来。大家都知道，在物理学上，温度越低，粒子的发散度越低，温度越高，粒子的发散度越高，比如说煮一锅水，出现水蒸气。GPT里的温度，是指生成词语的温度”指的是GPT每次生成下一个词语的温度”指的是模型生成下一个字的探索性与确定性的选择程度。温度越低，GPT生成出来的文字是选择概率比较大的文字进行生成，它靠谱，符合逻辑性，但是容易言之无物和重复。温度越高，GPT生成出来的文字选择概率比较小的文字生成，它比较有创作力，能能成比较有意义的文字，但是容易跑题。比如说，洋第皇的禁忌症有哪些？选择温度低，可能会回复：洋第皇的禁忌症，在这里作为AI语言模型不方便说，请用户去查看药物说明书或者请教上级医生。了解洋第皇的禁忌症是有必要的，它涉及到病人的用药安全。作为医生需要了解洋第皇的禁忌症。请用户去了解相关资料……。这样的回复，非常符合逻辑性，但是言之无物。选择温度高点，GPT会回复洋第皇的禁忌症具体包括某些某些。再选择温度更高，GPT的地方回复可能会说着说着跑题了，或者出现概率低的字符，比如说毫无意义毫无逻辑的乱码。这个道理，有点像炒菜，火候要把握好。开小火，则菜的味道接近原始食材，开中火，菜会成熟，开大火，对不起，可能会烧糊了。一般来说，选用软件默认的温度就可以了。必要的时候，自己再调整温度。

17.以上方法互相混合使用。

18. 第18，第18写什么好呢？降龙十八掌打完了17掌，第18掌打什么呢？除了上述几种常用使用方法之外，还有其他的特别方法。读者如果掌握了以上17种办法，只是相当于《笑傲江湖》里早期的华山弟子，把华山剑法原原本本学熟了，但是这远远不够，以上内容除了讲述方法之外，里面还夹杂着GPT的制作原理。读者如果能充分理解GPT的制造原理，融汇贯通，也可以摸索出其他使用方法，即创造出符合自身要求的独狐九剑。

在写这篇文章之前，有粉丝问过我，GPT所生成的文字回复靠谱吗？我的答案是，纯属参考。GPT如果它回答客观的问题，它有一定的概率是正确的，也就是说也有一定的个别概率是错的;GPT如果回答的是主观的问题，它的回答无对错之分。从GPT的制作原理来理解这个问题：做个对比。人类的智能是现实世界里生活、生产过程中训练出来的。人类需要将生活和生产活动中的思想、经验、知识等内容转化为一种可视化的符号系统，这个时候文字就诞生了。而GPT的智能，是来自文字作为训练材料而来的，它没有直接参与现实世界的生产、生活过程。举个例子，你问花是什么气味，粪又是什么气味。GPT它从来没在现实世界中问过花和粪的气味，那么它是怎么知道花是香的粪是臭的？它是从大量语料统计出来的结果，比如说有很多语料有个“花”字，附近几句带了“香”字或者香字的同义词近义词；有很多语料有个“粪”字，附近几句带了“臭”字或者臭字的同义词近义词。再举个例子，请判断“抽烟危害身体健康，所以应该禁止买卖香烟”这句话对不对，并说明理由。这个问题比较主观，人类的回答有说对有说错，但是公说公有理，婆说婆有理，没有绝对的对错。而GPT的回答，也是基于人类这些回答的参考。既然主观问题人类的回答没绝对的对错，那么GPT的回答也就无绝对对错。AI界有句话说，大量语料训练能涌现出智能。训练材料越多，GPT越聪明。你问人类分为多少种性别，标准答案是2种。但是有某些人鸡蛋里挑骨头，说这个问题有BUG，人妖是第三种性别。你问，树上10只鸟用枪打死1只剩几只，标准答案是0只。有人鸡蛋里挑骨头，说有可能那些鸟被胶水粘住树枝，所以答案9只。有人又说，说不定猎人又把树枝给打断了，所以答案是0只………目前市场上有很多人开发GPT，GPT的回复靠不靠谱，取决于开发者的训练材料的质量、数量、训练方法和其他。