朱鸿军李辛扬：ChatGPT生成内容的非版权性及著作权侵权风险

skysun000001 2023-08-01 发布于北京

展开全文

作为一种现象级的技术应用，ChatGPT不仅给多个行业带来了新的可能，也对现行的法律制度提出了挑战，其在自然语言生成应用场景下的生成内容引发了可版权性和权利归属等论争。基于对著作权法、ChatGPT的技术发展和生成内容类型的分析，本文认为，ChatGPT在自然语言生成应用场景下的生成内容在现有著作权法系统下无法构成“作品”，内容生产和模型训练分别对著作权核心理念和合理使用原则提出了挑战，生成内容的利用有可能引发道德和著作权侵权风险。

引言

2022年11月30日，OpenAI公司发布了名为ChatGPT（Chat Generative Pre-training Transformer，对话式生成型预训练转换模型）的人工智能对话系统。由于ChatGPT能够通过聊天对话为用户提供多个知识领域的详尽答案，编写软件代码，甚至生产出类似真人撰写的文章，自推出后即受到全球广泛关注，月活用户在两个月时间内就突破1亿人，目前已有多家企业正在布局和研发与生成式人工智能相关的产品和服务。作为一种现象级的技术应用，ChatGPT不仅给多个行业带来了新的可能，也对现行法律制度提出了挑战。“著作权从一开始就是技术之子”（保罗·戈斯汀，2008：22），如今，新技术也正在考验著作权法调整信息与内容产品市场的能力。ChatGPT的本质是人工智能生成技术（Artificial Intelligence Generate Content， AIGC）的具体应用。近年来，学界围绕人工智能生成内容的法律属性展开了讨论，但尚未形成一致观点：少数学者对人工智能生成物的可版权性持谦抑态度，多数学者则认为人工智能生成内容能构成著作权法意义上的“作品”，主要依据包括“客观主义标准说”和“工具说”等。基于既有研究、ChatGPT的技术发展和生成内容类型，本文对ChatGPT生成内容的可版权性进行辨析，并针对ChatGPT在运行过程中可能出现的侵权风险展开讨论。本文认为：ChatGPT生成内容在现有著作权法系统下无法构成“作品”，内容生成和模型训练分别对著作权核心理念和合理使用原则提出了挑战，生成内容的利用有可能引发道德和著作权侵权风险。

一、人工智能技术、人工智能生成物与可版权性争议

作为计算机学科的一个重要分支，人工智能（Artificial Intelligence）于1956年在一场机器模拟智能的研讨会上被正式提出；经过几十年的发展，其与基因工程、纳米技术共同被称为21世纪三大尖端技术。目前关于“人工智能”的界定学界尚未形成统一的观点，但既有定义基本上都概括了这一学科的基本思想和内容，即通过计算机模拟人类的思维过程和智能行为（蔡自兴，刘丽珏，蔡竞峰，2016：2）。伴随着移动互联网、大数据等技术和基础设施的快速发展，人工智能在21世纪取得了迅速发展。先前的人工智能多偏重于分析能力的开发和应用，即对数据进行分析以发现其中的规律和模式，个性化推荐算法是这一阶段人工智能技术的典型应用场景；近年来，人工智能不再局限于对已存在内容的分析，而是能够基于数据训练和算法生成模型自主生成多种形式的新内容，实现了从感知理解到生成“创造”的飞跃（张智雄等， 2023）。目前，机器人已经可以自己“创造”音乐、绘制图画、写作诗歌和小说等，微软公司的人工智能产品“小冰”生成的人工智能诗集《阳光失了玻璃窗》已于2017年5月正式出版。人工智能生成物的出现也给著作权法带来了一系列新的挑战，近年来，学界和业界围绕人工智能生成内容的可版权性等问题进行了讨论。

学界对于人工智能生成物的法律属性尚未形成统一意见。有些学者认为人工智能生成物不能构成著作权法意义上的“作品”。比较有代表性的观点认为，人工智能生成内容在形式上的“独创”非构成作品的充分条件，只有人的智力成果才能作为作品受到著作权法的保护（王迁，2023）。有学者以著作权制度的立法宗旨为出发点进行分析，认为著作权法对于作品丰富性和多元化的追求体现了“无序”的面向；而在现阶段，人工智能工作的底层逻辑仍是学习、利用规律并选择最优方案，这一过程是从“无序”向“有序”的转变，背离了著作权法律制度的宗旨和标准，因此人工智能生成物不具有可版权性（刘琳，2022）。多数国内学者则认为人工智能生成物具有可版权性，主要观点包括“客观主义标准说”和“工具说”等。持“客观主义标准说”的学者认为，不能因人工智能创作物的作者不是自然人就否定其可版权性，判断人工智能生成内容能否构成作品应坚持客观主义标准，无需考虑作品的创作过程，应仅就创作结果在形式上判断其是否具有“创作性”（易继明，2017；李伟民，2018）。认可“工具说”的学者承认“作品应是自然人创作成果”这一前提，认为人工智能本质上属于人的创作工具，其生成内容是人类作者思想的延伸表达，只要满足版权法要求的独创性和能以一定形式表现的标准，就应该考虑将其认定为作品（熊琦，2017；丛立先，2019；王小夏，付强，2017）。也有学者认为法教义学上的讨论没有实质性意义，转而从激励论和市场竞争的角度出发，指出承认人工智能创作物的可版权性更能实现政策选择的利益（曹源，2016）。有学者进一步指出，人工智能已不再是简单的程序，而已经成为“具有自我学习和理性行动能力的智能系统”，“在未来可以把人工智能作为新的民事主体对待”（李伟民，2018）。在认可人工智能生成物可版权性的基础上，学界又针对其权利归属进行了讨论，认为可以将其作为“设计版权的演绎作品”（易继明，2017）、“人工智能设计者的法人作品”（熊琦，2017）或“民法中的孳息”（黄玉烨，司马航，2018）等进行保护。

二、现行版权法系统下ChatGPT生成内容的非版权性

ChatGPT可被应用于多个场景，但并非其全部生成内容都会引起版权争议。通过对ChatGPT生成内容进行梳理，其在自然语言生成应用场景下的生成内容是涉及著作权争议的主要部分。客观主义标准下ChatGPT生成内容具有可版权性的论断并不构成实质性成立，现行版权法仅保护人类的成果；将生成式人工智能视作人类创作工具的观点混淆了“人工智能生成的”和“人工智能辅助生成的”两个概念，因此，ChatGPT生成物不具有可版权性。

（一）ChatGPT技术的发展与生成内容的类型

ChatGPT的表现形式是聊天机器人，能够通过学习和理解人类语言、根据上下文环境与用户进行交流；但其本质上是人工智能生成技术的具体应用，能够在深度学习人类语言和相关领域知识的基础上自动生成特定内容。ChatGPT的关键技术基础是大规模语言模型，在生成型预训练转换模型（Generatibe Pre-trained Transformer， GPT）系列模型的基础上研发，历经四年迭代而来，其在最初发布时的模型版本为GPT-3.5。ChatGPT获得广泛关注的重要原因之一是引入了新技术RLHF（Reinforcement Learning with Human Feedback，基于人类反馈的强学习）。该技术通过人工标注微调模型、训练奖励模型和基于近端策略优化模型生成回答等环节，使人工智能模型生成的内容与人类常识、认知、需求和价值保持一致。因此，ChatGPT与前期同类产品相比，编造事实的比例大幅度下降，生成内容的毒性大大降低，在本质上仍属于生成式人工智能。目前，ChatGPT的语言模型已经从GPT-3.5进化到了GPT-4，未来可能会生成更多形式的内容。

当前，ChatGPT能够适用于智能问答、语言转换和自然语言生成等应用场景，据此其生成内容大致可分为三种类型（张智雄等， 2023）。在智能问答应用场景下，ChatGPT能够回答用户提出的常识性或基于具体场景等的问题，如知识问答、角色模拟等；这一场景也可以作为一种检索方式发挥作用，在这一场景下，ChatGPT生成的内容主要是基于已有知识的事实性回答或具体场景语境下的沟通内容。在语言转换应用场景下，ChatGPT可以实现不同语言之间的转换，除了自然语言之间的相互翻译之外，还能够实现编程语言之间、编程语言与自然语言之间、自然语言与特殊代码符号之间的相互转换；在这一场景，ChatGPT生成的内容主要包括文本的翻译、读写的代码等。自然语言生成场景是ChatGPT进行内容“创造”的核心应用场景，在该场景下，ChatGPT可以执行三种任务类型：一是由繁至简的概述，即辅助从繁杂的信息中快速提炼要点，如生成关键词等；二是由少到多的扩充，如根据用户给出的提示内容撰写短篇故事等；三是从有到无的“创作”，即辅助用户生成对话情景要求的内容，如撰写论文提纲、文献综述等。由此可见，并非ChatGPT生成的全部内容均会引起著作权争议，涉及可版权性论争的主要是自然语言生成应用场景下的生成内容，本文的下述讨论亦针对此部分内容。

（二）客观主义视角下ChatGPT生成内容可版权性的表象成立

《中华人民共和国著作权法》（以下简称《著作权法》）第三条规定，作品“是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”。判断ChatGPT生成内容能否构成作品无法绕开对“独创性”标准的解读。“独创性”标准作为一种通行的做法，各国尚未有立法层面的定义或明确解释，司法实践也莫衷一是。作为大陆法系的代表，法国的传统观点认为“独创性”是作者个性的反映，源自作者在创作过程中有创造性的选择，在具有里程碑性质的Pachot案中，法官将“独创性”定义为“智力投入”，但如果这种投入是自动或者强制逻辑性的，则不会受到保护。英国法院在多个案件中对独创性标准进行了解释，最终确立了两个基本原则：一是该作品并非对他人作品的抄袭，二是该作品必须投入了“个人的技巧、劳动或判断”（姜颖，2004）。美国1909年著作权法提出了对作品独创性的要求，其司法实践在早期采用与英国传统标准相似的“额头出汗”原则，但在Feist案后要求“独创性”包含“独立创作”和“少量的创造性”两方面内涵（李伟文，2000）。由此可见，关于“独创性”的理解和讨论主要围绕“独立创作”和“创造性”两个概念的含义展开。

有学者认为，“独立创作”被纳入“独创性”的内涵范围，是由版权法的历史背景、解决版权制度操作性难题的需要以及司法实践的偶然因素等多方面因素共同作用的结果；“独立创作”描述了作品与创作者之间的关系，而非作品在本质上区别于其他事物的属性，“创造性”才是版权法基于一定的价值目标、对作品法定属性和要求所作出的规定（乔丽春，2011）。“独立创作”涉及作品著作权归属，判断创作物是否能够构成“作品”应首先坚持一种客观主义的判断标准，即判断创作物在表达形式上能否满足著作权法要求的足够的“创造性”。在客观主义的独创性标准下，无需考虑ChatGPT生成内容的创作者和创作过程，只需要考虑其生成内容是否达到了最低限度的创造性及其是否能以一定形式表现。就第一个问题而言，如今，ChatGPT可以撰写诗歌、在一定的用户提示下完成短篇小说，且已有多篇学术论文将ChatGPT列为合作者；由此可见，ChatGPT生成内容在形式上与人类作品具有接近性，在没有明确标明内容来源的情况下，其生成内容与人类作品在表象层面已经较难区分出来。因此，ChatGPT生成内容可以被认定为能够满足最低限度的创造性。而就“能否以一定形式表现”这一问题来看，ChatGPT生成的文本内容无疑可以通过一定形式被固定下来。由此可见，在客观主义标准下，ChatGPT生成内容具备表象层面的可版权性。

（三）民法权利主体——人视角下ChatGPT内容可版权性的实质不成立

“民法对事实行为的概括往往以行为所造成的客观后果作为最终构成要件”（董安生，1997：113），创作行为作为一种事实行为，创作内容是这一行为的结果，以创作内容本身去判断生成内容是否具有独创性在某种程度上具备合理性（杨述兴，2007）。但理论和方法的有效性应建立在适用条件和具体语境的基础之上。客观主义判断标准适用的前提是生成内容源自于人，只有对于自然人的创作成果而言，依据创作结果讨论独创性才是可行的。著作权法保护思想之表达，但“表达”并非只是作为“符号之组合”存在，其本身即蕴含了人的主体意味。以往新技术对著作权法的影响主要体现在作品的复制和传播方面，在此背景下，客观主义标准在法律适用层面的明显优势是有望通过一种简单的方法判断某一成果是否具有独创性。如今，ChatGPT等生成式人工智能直接介入了内容的创造性生产过程——直观看来，人们不再是利用计算机以新的方式生产作品，而是让计算机用新的方式生产作品。因此，在忽略“作品是人的表达”这一前提的情况下，直接运用客观主义标准去评判非自然人生成内容能否构成作品是不妥当的。在仅考虑作品本身的可区别性、不考虑创作主体和过程的情况下，不仅机器生成的内容具有可版权性，动物乃至自然界中产生的“符号组合”都可能构成作品，这将造成著作权客体范围无端扩张，动摇私人利益与公共利益的平衡甚至著作权法律制度的稳定。

循着著作权产生、发展的历史可见，无论是作为自然权利还是功利主义视角下的经济激励，人类的创造始终是著作权的重心（Gervais D J， 2020）。既有的司法判例也将著作权之船锚定在人类创造力的水域。早在一个多世纪前的“Sarony诉Burrow-Giles平版印刷公司”案中，美国最高法院判决意见书中就将“作者”界定为“拥有原创性事物之人” （U.S. Supreme Court， 1884），表明“作者”必须是“自然人”。在此后的Mazer v. Stein案（U.S. Supreme Court， 1954）、Goldstein v. California案（U.S. Supreme Court， 1973）等判例中，法院也多次援引“Sarony诉Burrow-Giles平版印刷公司”案中的观点，这表明人类作者身份是作品受到版权法保护的先决条件。2018年，美国版权局拒绝了人工智能自动生成视觉内容《通往天堂的近路》（A Recent Road to Paradise）的版权申请，并强调著作权法保护的是“独创性作品的作者”（original work of authorship）将其创作物固定在有形载体的表达；国会在立法时对于“独创性作品的作者”这一身份的定义进行了刻意留白，是在为了“不改变法院依著作权法所建构的独创性标准”这一前提下，避免出现著作权法的法定保护范围与宪法授权国会保护的材料范围不一致的情况；“独创性作品的作者”这一概念指涉范围相当广泛，但法律并非对其毫无限制（U.S. Copyright Review Board， 2022）。因此，在现行版权法中，“人”是权利的主体，只有人类的智力成果才可能具有可版权性。

基于上述讨论，判断ChatGPT生成内容能否构成作品的关键，在于厘清其生成内容与人的关系，即人在ChatGPT内容生产过程中是否发挥关键作用。2023年3月16日，美国版权局在联邦公告上发布了一则声明，对使用人工智能技术产生的作品之著作权审查和登记进行了说明。根据声明，讨论一份创作物是否具有可版权性的基础是“作者是否为人类”，即作品中文学性、艺术性、音乐性要素的表达、选择或安排是否是由自然人构思和执行的；对于包含部分人工智能生成内容的创作物，其可版权性的判定要看人类在多大程度上创造性地控制了作品的表达以及是否“实际创作”了作品中的创造性元素（traditional elements of authorship in the work）。在就含人工智能生成内容的创作物进行作品申请时，作者有义务对人工智能生成内容进行标注，并对人类作者对作品的贡献进行简要说明；如果机器完成部分超出最大限制，则该创作物不能被认定为作品（U.S. Copyright Office & Library of Congress， 2023）。美国版权局在拒绝《通往天堂的近路》的版权申请时，理由就是“没有证据表明人类作者在该图像中进行了充分的创造性投入或干预”（U.S. Copyright Review Board， 2022）。

有观点将人工智能视为人类进行创作的工具，并在此基础上主张人工智能生成内容的可版权性。然而，ChatGPT在内容生成过程中是否只是人类进行创作的工具呢？工具是“人在生产过程中用来加工制造产品的器具”或“用以达到目的的事物”（中国社会科学院语言研究所词典编辑室，2020：448）。从定义来看，就智力产品而言，“人”是在生产过程中发挥主观能动性的一方，工具只具有辅助作用。ChatGPT的本质是人工智能内容生成技术的具体应用，通俗来讲，人们运用现有的人类作品对人工智能技术进行大规模训练，并使用训练获得的规律生成内容。具体而言，训练过程是在给定一段文本序列的基础上，模型将前文的单词序列作为输入，逐个预测下一个单词的分布概率，由此学习单词之间的关系、上下文语义和语法规则等，最终训练出对人类语言的理解能力。ChatGPT的预训练数据主要来源于维基百科、书籍、期刊、Reddit链接、Common Crawl系列语料库和其他数据集等，学习内容均是人类的智力成果。在系统运行过程中，用户给出文本指令（prompt），然后ChatGPT根据指令生成一定的文本结果（answer）。即使ChatGPT在生成文本内容前接受了人类（用户）的提示，用户也无法对ChatGPT如何理解人类提示和实际生成文本材料进行足够的创造性控制；换言之，是机器而非用户对所输出文字进行实际的选择和组织。用户的指令只是明确了人类希望机器输出内容的主题，但机器实际决定了这些指令是如何在其输出文本中实现的。例如，如果用户指示ChatGPT以思乡为主题写一首李白风格的七言律诗，他期望系统生成体裁为一首七言律诗、涉及思想和类似李白风格的诗作，但ChatGPT决定了生成内容的押韵模式、每句中的语词和结构顺序。著作权法对作品的保护在任何情况下都不延及思想，用户关于“李白风格的思乡诗”的构想更接近于“思想”的范畴，而关于思想的表达实际上是由机器生成的。

早在1997年的Urantia Foundation v. Maaherra案中（United States Court of Appeals， Ninth Circuit， 1997），法院就对一件作品中所包含的“人类智力因素”进行了说明。在该案中，原告声称在神的授意下撰写了一本名为《神之启示》的书，被告Maaherra将这本书通过电脑光盘进行了复制和传播。原告认为这本书应该作为神创作的作品受到著作权法保护，而被告之行为构成著作权侵权；被告抗辩称本书作为“神的作品”不包含人类创作成分，因此无法受到著作权法保护，自己的行为也不构成侵权。美国第九巡回法院在判决意见书中表明，“作者”是首个对文字做出汇编、选择、协调和安排的人，在《神之启示》一书中，人类的智力性劳动体现为对内容的选择和编排，因此本书能够作为人的创造性成果受到著作权法保护。而在ChatGPT内容生成的过程中，对文字进行选择、编排和表达的是机器。ChatGPT生成内容应属于“人工智能自动生成的”，而非“人工智能辅助完成的”。根据世界知识产权组织发布的《经修订的关于知识产权政策和人工智能问题的议题文件》，“人工智能生成的”与“人工智能自主创造的”是可以互替使用的术语，指在没有人类干预的情况下由人工智能生成产出；“人工智能生成的”应该与“人工智能辅助完成的”产出加以区分，后者需要大量人类干预或引导。将人工智能看作是人之创作工具的观点混淆了以上两个概念：ChatGPT生成内容属于“人工智能生成的”产出，不是“人工智能辅助完成的”的产出，因此不具有可版权性。

三、ChatGPT语境下内容生产可能出现的侵权风险

生成式人工智能在吸引学界围绕创造性、表达和作品本质等深层问题进行讨论的同时，也使著作权法律规则不得不面临一些紧迫的现实挑战。尽管人工智能自动生成的内容不具有可版权性，但ChatGPT在模型训练和生成物利用过程仍会挑战现行著作权法、甚至产生侵权风险，具体体现在文本生成、大规模机器学习和生成物利用三个方面。

（一）对版权法“只保护形式不保护思想”的再思考

如果ChatGPT在模型训练过程中从大规模受著作权法保护的作品学习自然语言规律，那么模型很有可能生产出与输入数据相似的内容。当被问及其在生成文本的过程中学习了大量人类作者的文字作品是否侵犯他人著作权时，ChatGPT是这样回答的：“不侵犯，因为ChatGPT只是学习这些文本，而不是复制完全相同的文本，且ChatGPT只是根据已知的文本规则使用概率模型来生成新的文本，而不是单纯的复制粘贴”（於兴中，郑戈，丁晓东，2023）。ChatGPT在文本生成过程中并不会直接抄袭已有作品，而是进行重新组合。有学者通过测试发现，ChatGPT的功能之一是“智能洗稿器”：即使搜索出了与问题直接相关的信息，ChatGPT也不会直接对文字内容进行“复制粘贴”，而是会进行同义词替换，即运用不同于原内容的文字组合表达相同的观点（王迁，2015）。《著作权法》不保护人的观点或者是思想，保护的是观点或者思想的表达，因此，ChatGPT通过非复制粘贴使用自然语言的模式可能会规避《著作权法》对作品的保护。

（二）大规模机器学习对合理使用原则的挑战

ChatGPT之所以表现出较高的文本理解能力，一个重要原因就是有生成式大规模语言模型作为强大的“基座”。这一语言模型需要预先基于TB级的文本和数据进行大规模训练，从中学习隐含的人类语言规律和模式。根据OpenAI已公布的信息，ChatGPT训练数据的主要来源有二：一是GPT-1到GPT-3的基础预训练数据，包括维基百科、书籍、期刊、新闻文章、Reddit链接、Common Crawl系列语料库和其他数据集；二是人工标注的微调数据，OpenAI雇佣的上千名标注工（labeler）以手写文本的方式为模型提供训练语料（张智雄等， 2023）。但OpenAI并未公开ChatGPT相关训练数据来源的细节信息，这些数据是否均获得授权仍然存疑。《华尔街日报》等国外新闻媒体曾公开指责OpenAI在未支付任何费用的情况下使用了他们的文章训练ChatGPT（李若一，王林，贾骥业，2023）。ChatGPT在机器学习过程对既有作品的使用主要涉及内容输入、深度学习和文本输出三个阶段。内容输入阶段需要将文本的格式转换为标准的数据格式、选取有用的信息并按照特定的结构对信息进行调整，以建立属于一次学习范围的内容库。因此，对训练所需文本和数据的电子化复制是不可避免的一环；如果ChatGPT的训练数据并非全部来源于获得授权的文字作品或不享有著作权的公开作品，则可能涉及复制权侵权。深度学习阶段需要从数据训练集中分析、学习自然语言规律，然后利用习得的规律对数据进行处理，并通过对生成回答进行人工排序和奖励模型评估等对模型进行优化，这一阶段可能会涉及对既有作品的临时复制和模仿，但临时复制在我国不构成著作权侵权。在文本输出阶段，如果ChatGPT输出的内容与原作品存在实质性相似，则可能会侵犯原作品的复制权等。

为了满足社会对知识和信息的需求，各国著作权制度均规定了著作权的限制和例外，其中，合理使用制度是著作权限制最重要的一种形式。“合理使用”是指在一定条件下不经著作权人的许可，也不必向其支付报酬而对作品所进行的使用（王迁，2015：315）。如果ChatGPT等生成式人工智能开发者对于作品的大规模使用属于合理使用的情形，则该行为不构成著作权侵权。如果不同阶段对于作品的使用行为在目标和效果层面一致，可以将其视作一个整体给予统一定性（蒋珂，2015），因此，本文对于ChatGPT的大规模机器学习行为不再根据不同阶段进行细分。我国《著作权法》未规定判定特定行为是否属于著作权“限制和例外”的一般性原则，而是在第二十四条列举了十三种可以适用合理使用规则的具体情形，目前人工智能的大规模机器学习行为无法被涵盖在内。一方面，ChatGPT等生成式人工智能投资者多为法人组织，不属于“为个人学习、研究或者欣赏”的范畴；另一方面，生成式人工智能的大规模机器学习往往是为了企业后续盈利做铺垫，商业性目的无法满足“学校课堂教学或者科学研究”等要求。在比较法层面，日本（曹源，2018）和欧盟（Official Journal of the European Union， 2019）在著作权立法中已对合理使用的范围进行了扩大，将人工智能训练中的“文本数据挖掘”增列为一项新的合适使用情形。但人工智能对受著作权法保护的作品的大规模复制能否适用合理使用原则并非一个新颖的话题，美国曾有判例对这一问题进行回应。美国法院通过Perfect 10 v. Amazon案（United States Court of Appeals & Ninth Circuit， 2007）和Authors Guild v. Google案（U.S. Court of Appeals for the Second Circuit， 2014）确立了人工智能的大规模复制行为适用合理使用原则的两个基本条件：一是机器对于作品的复制并不会用于激励他人生产新的作品，二是机器对于作品的使用不会对与被使用著作权作品的潜在市场和价值产生影响。而ChatGPT等生成式人工智能的出现对以上两个前提均提出了挑战。一方面，ChatGPT对于作品的大规模复制和学习是为了生成内容，而生成的内容很有可能被用于用户的作品创作；另一方面，更高效、低价的机器生成内容可能会取代一部分作品，从而对著作权相关市场具有潜在性影响。无论大规模机器学习能否适用合理使用规则，生成式人工智能的这一行为都会对合理使用规则带来挑战。

生成式人工智能的大规模机器学习行为不适用合理使用规则的最直接负面影响就是人工智能开发者需要投入大量金钱获取作品授权，否则就有可能需要承担巨额赔偿。训练内容库的规模在很大程度上决定了人工智能的学习能力和使用效果。当前，ChatGPT的训练数据规模已达几十TB，可能有数十万甚至上百万的版权作品被包含在其中。如果使用每一件作品都需要获取许可和支付报酬，无疑会大大增加人工智能开发者的经济负担，甚至引发技术层面的“寒蝉效应”（王文敏，2022）。人工智能技术作为21世纪最重要的尖端技术之一，著作权法层面的严格限制可能会阻碍这一关键技术的进步甚至社会的整体发展。其次，如果大规模机器学习行为无法被纳入合理使用的情形，出于对高昂费用和潜在法律风险的考量，人工智能开发者可能会选择使用公共领域的作品或者经由协议获得的有限作品来训练算法模型。基于有限规模甚至低质量的文本和数据训练出来的语言模型极有可能会形成“算法偏见”，导致生成式人工智能无法区别甚至生产出危险的言论或建议，回复内容的“毒性”可能大大增加，从长远来看也不利于人工智能技术的进步。此外，获取著作权授权需要支付的高昂费用将进一步扩大不同规模人工智能研发企业之间的差距，造成不公平的竞争环境甚至行业垄断。实力雄厚的大企业更有可能依托各方面资源获取更多的训练数据，在此基础上优化模型以提供更全面、更优质的服务，吸引更多用户以巩固其市场占有率，并形成良性循环，最终导致“赢者通吃”的行业竞争局面。

然而，大规模机器学习适用合理使用规则会对著作权法律制度本身提出挑战。一方面，著作权制度的根本价值在于维护个人利益与公共利益之间的平衡，其所有规则的核心宛如一张由私人利益和公共利益错综交织的网络；有学者将二者间的界限比喻为难以捉摸的“形而上学”，且技术变革总是让二者关系处于更不稳定的状态（保罗·戈斯汀，2008：11）。合理使用原则设立的初衷是为了平衡著作权法保护作者和其他著作权人的利益与促进知识、信息广泛传播的双重目的，其最直观的考虑是不允许使用他人作品会阻碍自由表达与思想交流，因此，其最关注的行为是非营利性目的的使用（冯晓青，2009）。例如，我国《著作权法》第二十四条所列举的“为新闻报道”，“为学校课堂教学和科学研究”，“图书馆、档案馆、纪念馆、博物馆、美术馆、文化馆等为陈列或者保存版本的需要”等情形。合理使用原则之设立绝非为保障个人获利，而是意图通过对经济利益等的重新分配，以促进更多人利益的实现。在生成式人工智能的大规模机器学习行为中，实际的版权作品大量使用者是开发人工智能的企业，其对作品的使用最终是为了吸引更多的用户、获取更多的商业利润，就使用性质而言是商业性的而非公共性的。维护大型企业经济利益的实际效果可谓背离了合理使用原则设立的初衷，将大规模机器学习行为纳入合理使用范畴会使著作权法在某种程度上偏离了平衡公私利益的轨道。另一方面，知识产权法的一个重要作用是促进知识创新，但ChatGPT本身无法创造新的知识，而是基于既有的人类知识储备进行“知识重组”，其生成内容的新颖性、权威性等值得进一步考量。ChatGPT能够通过非复制粘贴方式对所学习的人类知识进行表达，也“鼓励”了一些投机取巧的行为，如果此种基于“机器喂料”生成的、不具有新颖性内容被广泛使用，从长远来看不利于人类创造力的提升。合理使用制度的初衷也是为解决后续作者为创作新作品如何利用先前作品的问题。如果大规模机器学习的最终结果并非是为了生成具有新颖性的内容和促进人类知识创新，将这一行为纳入合理使用范畴也背离了知识产权保护的目的。

（三）生成内容利用可能引发道德和著作权风险

如果ChatGPT在模型训练过程中从大规模受著作权法保护的作品学习自然语言规律，那么模型很有可能生产出与输入数据相似的内容。运用ChatGPT的洗稿行为可能存在道德风险；如果用户在创作物中使用了ChatGPT生成的、与训练数据中的版权作品构成实质性相似的内容，则可能会侵犯原作品的著作权。自2022年起，有不少学生开始使用ChatGPT代替自己撰写论文、编码；目前已有多家期刊声明完全禁止或严格限制使用ChatGPT等生成式人工智能撰写学术论文。

有学者在早先论述人工智能生成内容的法律属性时，也曾提及其与作品难以分辨的情况，如今这一现实问题的解决显得更为迫切。美国版权局最新发布的公共指导法案即对此提出了明确要求，作者在为视觉、文本作品进行版权申请时，应注明哪些部分由人工智能完成、哪些部分由人类完成；如果人工智能生成部分超出最大限制，则不应该放在作品中进行版权申请。人工智能生成物不是受著作权法保护的作品，而作者如在自己的作品中使用了人工智能生成内容作为其中一部分，有必要对来源进行说明（U.S. Copyright Office & Library of Congress， 2023）。新技术在为著作权法造成新的紧张、向立法者提出新的问题时，也会带来新的机会。20世纪末，数字压缩技术使数字音乐文件得以在网络上被便捷地共享，为了维护音乐作品的著作权，美国主要唱片公司与互联网、计算机等公司采取了联合举措，设计出一种标准技术（SDMI）为灌制音乐作品加上水印，以阻止他人未经授权使用数字录制的音乐作品。相关规定和著作权历史经验为判断含人工智能生成内容的人类创作物之可版权性提供了一定参考借鉴。法律和市场也会驱动人工智能生成内容识别技术的产生和应用，未来可考虑通过添加电子水印等技术手段对人工智能生成内容进行标注。当涉及含人工智能生成内容的人类创作物的著作权纠纷时，法院在认定作品是否满足“独创性”标准时，可先将“人工智能生成的”内容进行识别。如果全篇内容全部或近乎全部由人工智能直接生成，则该内容不具有可版权性；若内容由人工智能和人类共同完成，且绝大部分选择和编排是由人类做出，则该内容可被认定为作品。

结语

综上所述，ChatGPT生成内容不具有可版权性，其生成物不能满足“作品的作者是自然人”这一基本前提，且将其视作人类创作工具的观点混淆了“人工智能生成的”和“人工智能辅助生成”的内容。但ChatGPT的广泛使用也为现行著作权法带来了一些现实挑战。机器学习过程中的文本数据挖掘行为可能构成著作权侵权，但其能否适用合理使用规则还需要进一步细致考量；ChatGPT生成内容在利用时可能会侵犯原作品著作权，未来可通过电子水印等技术对人工智能参与创作的内容进行识别，并按照人类是否对作品进行主要选择和安排之标准对独创性加以判断。

法律制度具有滞后性，但对于法律问题的思考应具有前瞻性（吴汉东，2017）。近年来，大数据与人工智能技术的迅速发展引发了人工智能能否作为适格著作权主体等相关讨论。当前，ChatGPT等生成式人工智能对人类行为的模拟仅限于内容创作，与强人工智能还有很大差距。若未来人工智能技术发展到了具有自主意识的阶段，也需要民法在主体制度中对人工智能之法律地位做出回应，而不是在著作权法领域率先进行突破性变革。此外，权利的实现与义务的履行往往相伴而生，不能因人工智能生成内容与人类作品具有表象性相似便急于对其提供保护，也应考虑侵权责任的承担。如果著作权法为人工智能生成内容提供了保护，当生成内容侵犯他人权益时，权利所有人也应为其“创作”承担侵权责任。若生成式人工智能的所有者、研发者或使用者享有机器生成物的权益，那么当这些内容侵犯他人复制权、改编权或构成诽谤侵犯他人人格权益时，他们就需要为此担责。考虑到ChatGPT等生成内容的实际过程，由并未直接参与创作的自然人或法人来承担机器创作物的侵权责任不具有足够的合理性。自1709年《安娜法》颁布以来，技术变革总是为著作权法律制度带来新的紧张。著作权法在未来对人工智能生成技术带来的新问题进行回应时，不仅要考虑技术自身的变革程度，也要考虑其对公共利益与私人利益之平衡的影响程度，对既有法律规则变革与否，需要在著作权法基本原理的基础上探寻其在新技术背景下的适用条件。

（朱鸿军李辛扬：《ChatGPT生成内容的非版权性及著作权侵权风险》，2023年第6期，微信发布系节选，学术引用请务必参考原文）

在这里，读懂转型中的中国新闻业

在这里，探讨新闻业的未来

在这里，进行深入而严肃的思考

在这里，关心新闻人自己的命运！