GPT技术在基础科学研究领域的应用现状和影响如何？使用的边界和隐患在哪里？

小飞侠cawdbof0 2023-11-03 发布于北京

展开全文

原文刊载于《中国科学院院刊》2023年第8期“政策与管理研究”，原文标题为《GPT技术变革对基础科学研究的影响分析》。本文为精简改编版。

孙蒙鸽1,2 韩涛1,2 王燕鹏1,2 黄雨馨1,2 刘细文1,2*

1 中国科学院文献情报中心

2 中国科学院大学经济与管理学院信息资源管理系

ChatGPT模型的出现，对学术、教育及产业界均造成了很大的影响。基础科研领域的发展是大国科技竞争力的重要保证，直接决定了社会各方面进步的步伐，重要性不言而喻。目前，在基础科学研究领域，基于ChatGPT的研究已产生较多突破性成果，大语言模型技术在辅助科研人员进行研发工作或理解基础科学问题的同时，也在改变甚至颠覆基础科研生态。

那么，ChatGPT在基础科学研究领域的应用现状如何？影响几何？在研究中使用的边界和隐患在哪里？为此，本研究立足以上问题，构建系统分析框架，讨论ChatGPT模型对于基础科学研究的潜在影响和可能的应对方法，助力科学研究生态的健康发展。

GPT技术变革路径

ChatGPT在自然语言处理方面表现出来的性能已然达到了一骑绝尘的地步。通过GPT家族模型的发展路径（图1）看出，GPT系列模型的成功标志着人工智能从以专用小模型训练为主的“手工作坊时代”迈入到以通用大模型预训练为主的“工业化时代”，成为AI发展的分水岭。

图1 GPT技术的发展历程

GPT技术革命对基础科学研究的影响

文章将从应用牵引、原理驱动、创新主体迁移3个视角分析GPT技术变革对基础科研的影响(图2)。

图2 GPT技术变革对基础科学研究影响的全景图

应用牵引及其影响

按照由低到高的能力层次，可将GPT技术在基础科学研究中的应用分为3个模式（图3）。

图3 GPT助力科学研究应用现状概念图

工程化应用

该模式主要是增加GPT模型的对外接口，将其作为通用的科研数字助手，协助科学研究的日常工作流程，提升学术效率。以中国科学院研发的成果为例，GPT衍生模型的工程化应用案例如表1所示。

表1 GPT衍生模型的工程化应用案例

学科科研创新的助力

该模式主要基于领域数据库（如蛋白质结构数据库）微调出GPT衍生模型，提高模型在特定科学研究任务上的性能和适配性。目前ChatGPT的表现类似于通才，在细分的专业性上和行业中比较顶级的专家还有很大的差距。将ChatGPT作为通用人工智能的技术基座，通过在本地数据库中进行微调，便可以提升模型在不同领域上的专业性，使其更适用于解决领域场景问题，成为科学假设空间的探索者，目前已有一些探索性研究工作（表2）。

表2 GPT衍生模型的科学性应用

科研范式变革的促进

目前，“人机共生”的科研场景中，根据机器的智能程度由低到高将机器分为辅助做实验的“实验员”，辅助高维空间计算的“AI科研助理”，自主进行科研全流程操作、突破人类科学家认知瓶颈的“AI科学家”，这3种形式各有侧重，并行发展。GPT技术主要在后2种角色中发挥作用，即“科研范式变革促进”模式主要是希望突破“GPT类模型构建虚拟世界”的限制，通过加持实验类的物理科研设备，以“AI科学家”的身份自主提出科研假说、自主设计实验方案、自主验证假说合理性（图4）。

图4 人机科研场景中的3种科研范式概念图

目前，GPT技术与物理实验设备的连接主要有2种方式：

1. 打通自然语言和机器指令之间的壁垒，自动生成机器人操作指令。

2. 打通科研假设和科学实验之间的壁垒，自主生成实验方案。

应用模式的3个负影响

工程化应用模式中，不可避免地面临科研诚信问题

从文本语法、格式的角度来看，ChatGPT是一个好的“论文制造者”。然而，由于模型参数过大，GPT大模型会不可控地产生大量的虚构信息。更让人担忧的是，随着大语言模型的发展，编辑、出版商将很难分辨出人工智能代写的文章。

科研创新模式中，模型透明度的降低削弱了研究可信度

由于GPT-4模型未公布模型规模等技术细节，这不仅是与开放科学的趋势背道而驰，也会违背科学研究求证的科研态度。因此，如果继续使用GPT开源模型，则会威胁到结果可复现性，从根本上削弱研究的可信度；同时，无法从根本上回答重大科学研究问题的机理机制，进而无法有根本性突破。

科研范式变革模式中，基于开源大数据训练的GPT技术会潜在地放大固有偏见

由于ChatGPT的训练数据来源于大量的互联网数据，其中不可避免地记录了人类社会潜在的歧视与价值对抗。当ChatGPT输出明显具有偏见的研究内容时，不仅影响研究者的判断，更可能因为大量文本的广泛传播应用，加深研究者们的认知偏见。

原理驱动及影响

大量模型参数驱动实验计算问题的高维空间拟合

GPT类大模型核心还是Transformer的体系结构，之所以能在基础科学研究领域表现出卓越的表现，本质还是通过学习巨量的领域科学数据，借助大量模型参数对实验计算问题的高维空间进行了有效拟合。换言之，输出的仅是统计学上的可能性，缺乏强有力理论知识的支撑。

应用的主战场为数据计算密集型领域的高维复杂科学问题

分析上述案例可以发现，GPT技术在基础科学研究中应用的主战场为基础科学研究中的实验计算领域，即在分子生物学等数据积累丰富、结构化程度高、问题定义清晰的实验计算领域。这主要是因为GPT技术在基础科学研究中应用的本质是GPT技术的高维建模能力和科学第一性原理的结合。在此过程中，模型参数是衡量模型复杂度和能力的重要指标，也是高维基础科学研究得以解决的重要因素。参数越多，意味着模型能够处理更多的数据，学习更多的领域知识，更能帮助研究者探索高维数据的内在规律和关系，继而能够解决的科学研究问题的复杂度也越高。例如，在生物学领域，ProGen模型基于12亿的模型参数学习蛋白质中氨基酸排序的规律，帮助研究者快速从头构建全新的蛋白质。

模型适配性由数据表现形式决定

由于GPT模型的训练、应用都是自然语言序列数据，因此，在实验计算科学问题中，只有与自然语言相似的序列领域数据才可以用GPT模型进行编译，进而学习蕴含其中的高维复杂知识。典型的领域序列数据有：

1. 领域论文、专利数据是天然的自然语言数据。例如，基于4千亿字符训练的生成式专利语言模型PatentGPT-J-6B，用于自动生成专利权利要求书。

2. 生物大分子，尤其是蛋白质，可以看成是用遗传密码撰写的语句，具有更为复杂的关联知识。以“生物版ChatGPT”的ProGen模型为例，通过学习氨基酸如何组合成2.8亿个现有蛋白质的“语法”，学习到了蛋白质中氨基酸排序的规律及其与蛋白结构和功能的关系，进而可从头开始生成跨多个家族和功能的人造全新蛋白质。

原理驱动视角下的GPT模型应用边界

突破实验计算领域的研究边界

当模型参数超过临界值，GPT模型将突破实验计算领域中的研究问题边界，表现出一定的“涌现性”。通俗性表述是在小规模模型中不存在，但在模型参数超过阈值的大规模模型中存在的能力。这些能力在模型训练时没有被特别指定，而是由模型的多层结构和参数之间的相互协同作用自发产生的。根据Chung等学者的研究，模型参数规模在大于62亿的情况下，可涌现出之前较小模型不具备的能力，模型能力会完成从量变到质变的飞跃，呈现出惊人的爆发式增长。此外，大模型的涌现能力还存在一些悬而未决的问题，如是什么控制了哪些能力会涌现？如何控制模型涌现理想的能力并确保不理想的能力永不涌现？总之，由于涌现现象的难以预测性和不确定性，需要谨慎地处理涌现结果，并进一步验证和分析其输出结果。

尚未到达理论推导的研究边界

虽然GPT类模型在实验计算科学问题上表现得非常出色，甚至能够通过图灵测试，但它尚不能从公理化的知识和实验数据中对自然现象模型进行原理性的推导。针对这个问题，主要从两个角度分析：

1. 理论推导的核心能力是需要理解因果，而GPT模型表现出来的“智能”仅仅是源于数据拟合。人工智能科学家朱迪亚·珀尔认为理解来源于因果模型，而非源于数据拟合。ChatGPT仅仅依赖于大量文本数据进行预训练和微调，缺乏对真实世界的直接观察和经验，难以判断事件的因果关系。它表现出来的“智能”仅仅是来自人类语料库里已有的内容，当问题在语料库中不存在人类创作的答案时，ChatGPT智能系统便是无解。然而，对于理论科学来说，最重要的是推导出新的能够解释这个世界的理论公式。朱迪亚·珀尔的研究提示引进因果结构模型研究，通过2种研究进路的互补，形成功能—结构深度融合的智能系统或许是新的研究方向。

2. AI模型的黑箱工作机制导致GPT模型尚不具备理论的可解释能力。哲学家卡尔·波普尔指出，科学家们寻求的不是高度可能的理论而是解释，即强大而高度不可能的理论。然而，GPT模型仍然是一种基于神经网络的黑箱模型，不能解释其内部的工作机制，其表现出来的“智能”也并非类似于人脑结构和认知机制，更像是一个模式匹配统计引擎，输出的仅是统计学上的可能性。也就是说，目前的GPT模型核心还是描述和预测，输出结果总还是缺乏了强有力的支撑，不能像人脑一样进行跨领域、跨模态的理论推导。

创新主体迁移及其影响

分析上述内容中的案例可以发现，产业界正逐渐成为GPT助力基础科学研究的核心主体之一。

作为开源知识集成库，GPT模型助力知识迁移、降低知识获取门槛

创新主体迁移的根本原因是大量数据训练过的神经网络变为一种新的数据、知识存储模型，GPT类模型更是成为一个拥有丰富知识与经验的“专家”，一个开源知识集成库，由此实现了不同语种间的知识迁移，同时降低了知识获取的门槛。一方面，模型的训练语料是全球各语种的知识库，均会以问答的形式开源给模型的使用者，使全球任何语种的人都能使用大模型来学习不同语言的知识，实现不同语言间的知识迁移；另一方面，由于GPT类模型成为一种新的数据、知识存储模型，让信息检索方式从关键字检索、转变成具备完整语义的自然语言人机交互检索，以智能问答的方式改变了原有的知识查询与获取的方式，更甚者是对科研方式的颠覆。简言之，GPT类大模型的存在将会降低科学研究壁垒，吸引更多的学生、产业参与到科学研究中来。

充足的GPT技术发展资源，助力产业界有望成为基础科学研究的核心创新主体之一

GPT模型作为开源知识集成库的存在，降低了知识获取、科学研究的壁垒，一定程度上削弱了学术界在基础科学研究中的主导和控制地位。而产业界凭借其充足的AI技术发展资源，即算力、数据、场景、人和资本等优势的有机融合，使得人工智能驱动的科学研究（AI for Science）正在向产业界倾斜。

该现状对于产业界和学界的学科研究定位也将产生相关影响。一方面，产业界商业动机的存在，促使他们将GPT等AI模型更多地应用到以利润为导向的研究领域，如医药、材料等实验计算领域中的科学问题场景中。即计算密集型领域科学问题的突破将慢慢由产业界和学术界共同突破得来，类似于“巴斯德象限”问题（巴氏杀菌的应用研究和基础研究之间存在类似的重叠）。然而，这将潜在引导社会发展方向，并对低收入水平国家的学术研究形成壁垒。另一方面，对于一些根本性的基础研究，如生命的起源、宇宙大爆炸、量子纠缠的形成机制等理论性研究问题，还需要高校与科研机构作为最主要的核心创新主体。

针对我国基于GPT技术发展基础科学研究的建议

AI大模型通过重构人类知识检索、运用的基本方式，成为一种新的生产力。然而，由于GPT大模型具有重投入、长周期、快迭代、高风险等特点，决定了GPT大模型在基础科学研究中的竞争是大国游戏。在这场竞赛中，中国正处于奋起直追的关键时期，亟待找到高质量发展的新路。基于上述现状和影响，提出以下3方面建议。

投资研发国家自主可控、受知识产权保护的数据与计算平台，为GPT技术推动基础科学发展提供基础设施建设

从GPT的实现要素看，主要从数据、平台方面加大资源投入。

1. 建立高质量科学数据集势在必行。可行路径之一为自动抽取已发表科技成果中的科学数据，构化存储在数据库里，将其打造成AI for Science时代下重要的生产要素和战略资产。

2. 将AI数据计算平台打造成科研过程中的基础设施，加大硬件和经费支持。建议打造数据计算通用平台，嵌入科研过程。

3. 对于开源的AI算法进行产业化时，还需要注意到知识产权的风险。

从产学研模式、青年人才资源和知识跨领域流动3方面，为Al推动基础科学发展营造可持续健康生态

1. 大力提倡产学研模式，让参与主体各显本领，保证AI技术健康发展导向。

2. 引人育人，充分培养吸纳海内外青年人才，保证人才资源的不竭供应。

3. 促进知识跨领域流动，推动AI技术与基础科学发展有机结合。

鼓励人机协作与科研诚信监管并重，为Al推动基础科学发展营造公开透明的环境

当前，科学研究不可避免地正进入人机协作的时代，微软公司更是认为GPT-4是通用人工智能的火花。但我们还需要清醒地认识到当前的AI for Science模型，包括最新的GPT-4，存在着生成错误文本信息、逻辑推理和因果推断的表现能力较低等问题，因此它们尚不能算是一个完美的科研工具。总的来说，GPT类大模型的应用价值将在文本处理等方面帮助学者处理初级科研任务，或在高维数据建模方面帮助学者处理科研计算任务，但其应用效果还取决于学者的认知水平。

孙蒙鸽 中国科学院文献情报中心在读博士生。主要研究方向：情报理论与方法、人工智能驱动的科学研究（AI4Science）。

刘细文 中国科学院文献情报中心主任、研究员，中国科学院大学特聘岗位教授，《智库理论与实践》主编。长期从事科技政策情报研究与服务、科技战略情报研究、技术竞争情报研究、区域经济发展等。

文章源自：

孙蒙鸽, 韩涛, 王燕鹏, 等 . GPT 技术变革对基础科学研究的影响分析. 中国科学院院刊, 2023, 38(8): 1212-1224. DOI: 10.16418/j.issn.1000-3045.20230512003

总监制：杨柳春

责任编辑：张帆

助理编辑、校对：PAN

排版：立夏