申军：ChatGPT掠起的两项法律风险

隐遁B 2023-05-05 发布于广东

展开全文

作者简介

申军，法国执业律师，瀚申律师事务所创办人。主要业务领域为金融、公司、并购、合同、跨境投资、欧盟及国际商事交易; 深耕数字经济领域的新兴法律实务(数据、区块链与数字资产、人工智能与算法、元宇宙与NFT、数字平台与反垄断、数字领域知识产权等)。工作语言为中文、法文和英文。里昂第三大学商事法博士(法国与美国金融市场法之比较研究)、商事法硕士、企业管理学士，墨尔本大学银行法与金融法硕士，华东政法学院法学学士。获颁Édouard Lambert比较法研究所英国法文凭和美国法文凭。

特别声明:

本文仅代表作者的个人看法，不构成法律意见。

引用本文任何内容及/或观点须注明来源。

一、“拆解”ChatGPT

二、ChatGPT是否能被定性为高风险AI系统？

三、ChatGPT侵犯知识产权的风险是否能被规避？

四、结语

“拆解”ChatGPT

作为一种配备人工智能的聊天机器人或对话代行者，美国加州公司OpenAI开发的ChatGPT于2022年11月末问世，并迅速引得全球瞩目。ChatGPT的全称为Chat Generative Pre-trained Transformer，字面意思为聊天生成式预受训转换器，颇为拗口难懂。以下笔者试着将之分拆解读，然后将其或可涉及的主要法律事宜，置于法国及/或欧盟的法律框架之下做一浅析，以期抛砖引玉。

显而易见，ChatGPT由Chat和GPT两部分构成。Chat字面为聊天、对话之意，实则是Chatbot(聊天机器人)的简称。Chatbot的性质是电脑编程，能够模拟人类对话。GPT则是用于自然语言处理(NLP)的自动学习编程，可被用于多种用途，尤其在文本生成方面表现不凡。

GPT中的G代表生成式(Generative)，意味着它能以自动的方式生成文本内容。这种特质使得GPT能在一些原始条件中被予使用，比如不以模型份量更新或构型修改为前提的无举例学习。换言之，生成式可令GPT从诸如零尝试或寡尝试学习(zero-shot or few-shot learning) 的原始构型中获益，可使之无需微调相关构型中的参数即可完成任务。

Transformer直译为转换器，是一种被运用在大型语言模型(LLM)上的架构; 后者可以履行诸如问题答复、文本生成、文本概要、代码生成等多种任务。Transformer一般包括一只编码器和一只解码器。而ChatGPT的transformer仅有一只解码器，由自我注意层、解码注意层和前馈神经网络构成。

Transformer本质上是一种以序列到序列模式显示的人工神经网络。凭借并行计算、注意机制等手段，它可以解决将输入序列转换为输出序列的问题。尤值一提的是前述的注意机制，其能从正反方向追踪长文本序列词汇之间的关联。为此Transformer需要接受基于海量文本数据的预训练，这关乎对数据的组织、安排和建构，以加速其后的处理; 从被动意义讲，即是GPT中P所代表的预受训(Pre-trained)。

Transformer采用的训练技术是“纳入人类反馈的加强学习”(英文缩写为RLHF)。通过将人纳入训练过程, RLHF巩固了加强学习代行者的训练。这有助于虑及在自动化酬赏系统中不能被衡量的人为因素。就GPT而言，首先，人类写手根据文本提示/指示(prompt)写出的回答，被用于针对大型语言模型的微调; 其后，纳入人类反馈的酬赏系统被创造出来，以生成针对一个提示的多种回答，并由人类打分者予以排位; 最后，近端政策最优化(英文缩写为PPO)被用来加强学习算法，以训练相关的模型。

经过该技术的预先训练——譬如说，Transformer随机性地隐藏一个文本的部分内容，并预测该文本缺失的部分，且在此类训练中不断调节其的参数，GPT可以计算哪些词语的序列较其他词语序列更有可能出现，预知一个句子中更有可能出现的下一个词语，因而得以生成更有可能出现在ChatGPT答案中的文本。

这也就不难理解了，目前在法国，GPT一般被译为modèle de transduction du langage prédictif，即预测式语言转导模型，以强调该模型对于生成式文本的预测功能。基于前述背景资料，笔者倾向于将ChatGPT译为“可预测生成式文本对话机器人”。不过出于本文的写作需要，笔者依然采用ChatGPT的称谓。

ChatGPT是否能被定性为高风险AI系统？

依照笔者的看法，ChatGPT的法律事宜包括但不限于人工智能规制、知识产权、个人数据保护、数据治理、消费者保护、民事责任和网络安全。以下笔者试着撷取其中二点分别予以浅析，以供国内学界和业界人士参考。

ChatGPT是一种生成式人工智能，或者从更广义的范围来说，属于通用性人工智能系统(General purpose AI systems或Systèmes d'IA à usage général)。欧盟委员会于2021年4月21日通过的《人工智能法案》(法文版本名为《人工智能规章》)，将人工智能系统(以下称为AI系统)基于风险程度划分为不可接受的风险、高风险、低风险或最低程度风险三类(动机陈述第5.2.2.)。根据该法律草案，透明性义务适用于某些AI系统，比如与人类互动的此类系统(第52条)。这包括了聊天机器人(ChatBOT)。如果ChatGPT被视为是一种特殊类型的聊天机器人，那么相关义务或可适用。当然，该法案并未明确提及生成式人工智能和通用性AI系统。

欧盟理事会在2022年12月6日的运输、电信和能源理事会会议上，通过了修改人工智能法案的一般性方法(General approche，或称Orientation générale，即总体性定向，以下使用此称)。据此AI系统的新概念将只基于二种算法方法，即机器学习和逻辑-认知，而非原先的三种(统计方法被取消)。该总体性定向亦首次赋予了通用性AI系统的定义，明确提及了生成式AI系统。

依据该定向，生成式AI系统的特征是创造由系统生成的、以内容为形式之结果(第3条第1点)。通用性AI系统被定义为相关提供者用于执行一般适用功能的人工智能，譬如图像和声音识别、音频和视频生成、模型探测、问题回答、翻译等功能，无论其被投放到市场或投入服务的方式(第3条第1b点)。有鉴于此，ChatGPT这样的对话代行者自然被涵括在内。

依照该定向第4a条第1款和第4b条的规定，用作高风险AI系统或其组件的通用性AI系统，应当遵守《人工智能法案》对高风险AI系统的要求和义务。不过这些要求和义务并不直接适用于通用性AI系统，而是要视未来欧盟委员会的执行性文件是否指定相关系统应受法案约束。由于总体性定向将被欧盟理事会用于其与欧盟议会的谈判，以最终确定《人工智能法案》的正式版本，因此前者的相关立场和意见值得重视。

也由此可以思考的问题是：ChatGPT是否能被定性为高风险AI系统？

依照《人工智能法案》附录三关于高风险AI系统的内容，并结合ChatGPT的现况，笔者认为，被用于教育和职业培训的ChatGPT或有被归入此类系统的可能。同样，未来颁行的欧盟人工智能法，是否会将ChatGPT所属的自然语言处理(NLP)系统直接定性为高风险AI系统，从而向ChatGPT直接施加相关的义务和要求，也引人遐想。

反之，根据该总体性定向第52条的规定，透明性义务适用于意在和自然人互动的AI系统之提供者，即相关自然人应被充分告知相关信息(例外情形不计)，而无需相关执行文件的预先出台。此外，数种情形下AI系统的使用者(生物识别分类系统、情感辨认系统和深度伪造的使用者)也依法负有透明性义务。具体而言，前两类使用者必须向相关AI系统针对的自然人告知所涉系统之运作，后一类使用者必须披露看似真实或可信的相关内容(图像、音频或视频)是被人工生成或人为操弄的。

结合ChatGPT的提供者来说，既然其与自然人用户存有互动，因此其必须满足透明性义务。可资留意的是，如果其要履行此种义务，那么相关须被告知的信息值得阐明。考虑到ChatGPT的特殊性质，相关提供者得向自然人用户阐明的，应该不仅仅是后者在与一个AI系统互动，而且还应告知后者，该系统每次提供的回复结果是概率性的和随机性的。相较而言，同样是为了履行透明性义务，在线搜索引擎之提供者需要提供的信息显然不同; 它们不仅需要排列与一项用户问询相对应的任何回复，而且需要明确相关排列的参数。

此外，对ChatGPT的使用者而言，透明性义务是否能够真正得以承担，亦值得思考。如果其须承担相关义务，那么依照《人工智能法案》和总体性定向，ChatGPT需被定性为深度伪造(法文表述为超级操控)。事实上，GPT这样的生成式人工智能系统使用一种名为生成式对抗网络(GAN, Generative Adversarial Network)的深度学习技术，可以基于其所训练过的数据，生成以诸如图像、文本和音频为形式的诸多内容。

GAN包含两个神经网络: 一个创造新数据的生成器和一个评估数据的甄别器。生成器和甄别器共同工作，前者基于从后者收到的反馈，不断改善相关输出，直至生成与真实数据难以区分的样本内容。而作为生成器对手的甄别器，则试图侦测相关样本的真实性、或是该样本是否为生成器之成果。然而，尽管相关内容是人工生成的，甚至生成器的训练目的乃是为了欺骗甄别器，但是若将ChatGPT因此定性为深度伪造，可能并不完全适合。

由此可见，未来ChatGPT若被定性为高风险AI系统，相关认定标准的客观程度无疑非常重要，以免产生法律不确定性，以致影响相关义务和责任的适用。而鉴于ChatGPT是与自然人用户互动的AI系统，与之相关的透明性义务也可能难以被顺畅履行。是故，欧盟立法者或将会对之予以专门监管。

ChatGPT侵犯知识产权的风险是否能被规避？

关于ChatGPT的知识产权问题比较复杂，笔者在此探讨二点: 其一，其生成的内容是否能够受到著作者权（droit d'auteur，或称版权- copyright）的保护。其二，其是否可以使用受到著作者权保护的内容。

其一，就法国法而言，虽无法定定义，但精神作品被视为其作者专有的智力创造，反映了作者的“人格指纹”(是为所谓的原创性)。换言之，人类介入是一件作品受到著作者权保护的必要条件。因此，完全由人工智能创作的图像、文本或是更广义的“算法作品”，目前在法国不受著作者权的保护。反之，倘若人工智能在受人类监督的创作过程中仅被用作辅助之工具，而作品具有原创性，嵌有其作者的印记，那么该作品依然可以享有著作者权的保护。值得补充的是，根据法国最高法院在2015年所作的一项判决，法人不能具有作者的资格，这意味着仅有自然人可以成为作者。而人工智能本质上乃是缺乏情绪的软件，自然不能对号入座。

就ChatGPT的情形而言，依照笔者的看法，如果它在收到人类的提问后，完全依照以前训练过的数据以自动化的方式作答，而无任何的人力介入，故无可被辨识的人格印记，那么其生成的答复内容难以具有原创性，不能被视为法国知识产权法中所规定的精神作品。不过，假设提问的自然人所做之问询非常特别，或是说，提问人在给ChatGPT的书面指示中嵌入了特有的人格印记，并对相关回复的内容在事后予以修改和完善，那么该答复是否能被定性为作品而受到相关保护，则可资探讨。

此外值得进一步展开的是，自然人作者应能预知其作品的最终概貌，并能事先控制和事后解读其所能表达的内容。相较而言，ChatGPT通过回复形式生成的文本内容，在性质上是统计概率的或然性结果。实际上，在ChatGPT的情境下，同一用户在不同时间段提出的同一问题，所获得的答案会不一样; 两个不同用户各自提出的同一问题，则或会获得相似甚至相同的答案。显然，ChatGPT无法预知拟要呈现给用户的内容，也不能理解其生成的内容之意涵。

其二，一般认为，对受到知识产权保护的作品、物品或数据之使用，或可构成引致著作者权的复制行为，需要相关权利持有人的同意。值得指出的是，法国知识产权法典第122-5-3 III条(由欧盟2019年《数字单一市场著作者权与邻接权指令》第4条转化而来)规定了一种例外情形，即出于文本和数据挖掘之目的, 可对以合法方式获得的数字作品进行复制或拷贝，除非其作者以适宜的方式对此予以反对。因此用于人工智能用途的文本挖掘或许会被允许，而无需相关权利持有者的同意，不构成伪造。