【原】杜帅 | 生成式人工智能数据风险关注清单

新用户82908zIt 2023-09-01 发布于上海

展开全文

一、引言

二、数据合规要点

（一）基本合规要点

（二）数据来源合规

（三）数据处理合规

（四）数据传输合规

（五）数据生成合规

三、结语

四、启示

摘要

文本旨在结合《办法》以及对本领域已有法律法规、司法实践的解读协助涉足AIGC领域及其应用研究的企业厘清生成式人工智能可能涉足的数据风险要点，并给出合规方向的建议。

一、

引言

自生成式人工智能的代表作ChatGPT问世以来，各国都对生成式人工智能的合规问题尤其是数据合规问题高度关注。意大利^[1]、德国^[2]、西班牙、法国、加拿大等数据保护机构纷纷对ChatGPT涉及数据泄露、用户隐私、数据安全等问题进行调查。我国网信办等机关反应迅速发布了关于生成式人工智能服务的管理办法的征求意见稿^[3]，并于2023年7月发布了《生成式人工智能服务管理暂行办法》^[4]（以下简称为“办法”）。

本所律师在《办法》公布之际接受了诸多企业界朋友的咨询，涉及到的问题不仅仅局限于《办法》规制的范畴。因此，文本旨在结合《办法》以及对本领域已有法律法规、司法实践的解读协助涉足AIGC领域及其应用研究的企业厘清生成式人工智能可能涉足的数据风险要点，并给出合规方向的建议。

二、

数据合规要点

（一）基本合规要点

以ChatGPT为例，其对涉及数据问题进行了整改^[5]，整改方向涉及：

（1）能否建立公平无歧视的规则，即收集了哪些数据以及处理数据方法是否公开透明；

（2）数据准确性；

（3）数据处理的合法性，即是获得用户同意、合法、在必要限度；

（4）儿童数据保护和未成年人保护；

（5）知情要求，类似于国内个保法的要求，给予用户对某些数据搜集或处理行为的明确拒绝权。

我们注意到这些方向也是我国数据合规的三驾马车尤其是《个人信息保护法》重点关注的。AIGC领域企业可以在应用产品的用户协议/服务条款、隐私政策条款、弹窗提示、未成年人信息的验证和双重授权方面体现上述要点，这些数据合规的基本要点本文不再赘述，而是基于AIGC自身的特点，从数据全流程角度梳理其他需要关注的风险点如下。

（二）数据来源合规

1. 数据爬取

AIGC的训练数据来源中涉及合规风险的主要是爬取数据。今年4月笔神作文就发布声明称，学而思通过“爬虫”技术非法访问、缓存其APP服务器数据多达258万次^[6]。爬取行为是否合规往往需基于具体的场景或用途判断，本所律师基于司法实践梳理了如下几个原则供参考：

第一，爬虫不应突破网站经营者技术手段，突破技术手段爬取有非常高的可能性被认定为侵害了经营者的数据财产权益；

第二，尽量不违反robots协议声明，包括自然语义的声明以及明确被列入黑名单的爬虫；

第三，避免大量、高频或在网站高峰运营时段的爬取，防止爬取破坏网站正常运营；

第四，使用数据的方式不应替代经营者自有的运营方向，避免被认定为不正当竞争；

第五，避免爬取个人信息，如果爬取数据涉及个人信息会触发严格的个人信息保护条款。

2. 数据清洗

AIGC的训练数据或者微调数据都可能会面临存在，违法、违规或者个人信息的内容，对这些信息的剔除和个人信息的去识别化是必要环节，防止后续生成数据环节出现更严重的问题，原则可以见《办法》第四条^[7]（一）-（四）项的规定，这与互联网出版方面的保护原则是一致的。

3. 垂直领域侵犯商业秘密问题

在涉及到垂直领域的AIGC应用层面，往往需要采用企业已有的工作成果，例如会议纪要、项目报告、文件、规范等作为训练数据。垂直领域一家公司的训练数据和模型往往可以用于其他公司，这种行为极有可能造成竞争公司之间的商业秘密披露行为，甚至导致刑事风险。在这种情形下，深耕AIGC应用服务的公司应与服务企业进行清晰的风险提示，对此类数据的获取、存储、使用界定清晰的条款。

4. 开源数据集的使用

如果采用开源数据集训练大模型，需要对开源许可证的要求进行审查，例如BSD 3-Clause License，apache-2.0，CC By NC 4.0，审慎关注对未来产品的应用价值产生影响。

（三）数据处理合规

1. 数据标注

数据标注的原则见《办法》第八条^[8]，可以总结为四个层面：

第一，标注的规范性，即应识别不良信息，调整不良信息的权重；

第二，标注规则应当明确，并且是具有可操作性，未了避免未来监管，该规则应当可以经受算法合规的考察；

第三，应对标注情况进行质量评估和抽样验证；

第四，对标注人员的要求，应当备存名单并进行培训。

2. 训练模型中的复制行为是否构成著作权法上的合理使用

这个问题在著作权实践中仍有争议。为了推进AIGC的发展，欧盟、英国、美国、日本等国家倾向于将人工智能进行的文本与数据挖掘在一定条件下认定为有合理使用。

结合我国关于合理使用的司法实践，使得训练模型中的复制行为符合合理使用的规定，可以采用的思路有：

第一，数据集非全部地、完整地使用第三方作品；

第二，考虑转换性使用，大模型训练中对这些作品的使用是为了明确其元素之间的关系，而非直接发布作品；

第三，生成内容不应实质性替代该训练数据原本的市场；

（四）数据传输合规

1. 数据共享

AIGC开发和应用过程中不可避免会遇到数据共享的问题，包括（1）第三方服务商的共享，例如数据标注公司；（2）数据交易共享，通过API获取训练数据；（3）最为常见的是与关联方共享数据，公司布局不同的实体进行客户端APP的运营、应用的开发、数据库构建等。

无论是何种共享，都应当对传输目的、接收数据的范围、在数据共享中各方的角色和权责做出明确的协议约定，同时使得数据主体充分知情并获得明确的授权。

2. 数据出境

从事AIGC应用服务的公司常因为便于调用国外大模型或者便于服务国外客户将运营主体和云服务商设置在境外。在提供国内用户服务时，很可能遇到数据出境问题。这就要求此类公司重点关注其服务的垂直企业的领域和功能，判断是否涉及重要数据，以及处理个人信息数据数量，落入数据出境监管的规定的，及时申报、备案。确有必要的，可以考虑重新规划运营实体和数据处理实体的境内布局，开展与国内大模型的合作，控制数据出境的合规成本。

值得注意的是，在存在国内外关联实体的情况下，因人工智能相关技术属于限制出口的类目，还需要注意技术出口管制的问题。

（五）数据生成合规

1. 生成内容的审核

《互联网信息服务深度合成管理规定》（以下简称“深度合成规定”）第10条要求“采取技术或者人工方式对深度合成服务使用者的输入数据和合成结果进行审核”给生成内容的审核提供了思路即自动审核+人工审核+第三方审核的方式。审核中应当“建立识别违法和不良信息的特征库，完善入库标准、规则和程序，记录并留存相关网络日志”，即审核的规则和结果是可回溯的。

2. 著作权侵权

生成内容侵犯第三方著作权问题为AIGC的推广带来巨大的挑战。Open AI在美国已经面临程序提起的关于侵犯其代码版权的指控^[9]。考虑到海量的训练数据以及大模型本身的特性，AIGC领域从业者很那从整体上进行此类问题的风控，只能在尽量争取数据来源被认定为合理使用的基础上，发布明确的侵权投诉渠道，建立快捷、有效的停止侵权机制，控制个案风险。

3. AI生成个人声音、面部构成的人格权侵权

根据《民法典》肖像、声音权益的规定，大火的AI孙燕姿、AI明星换脸等应用的大部分商业模式是极有可能构成对人格权侵犯的。权利人出于市场拓展的目的未进行维权处理，但本领域企业若以此作为经营方向还是应该获得明确的授权。

三、

结语

本文从风险清单的方式梳理了AIGC领域企业在数据方面的主要风险点并提出合规思路，具体的合规建议还应基于服务场景进一步判断。由于篇幅所限，本文对于AIGC算法备案、安全评估以及提到的技术出口管制、模型参数开源等与数据有紧密联系的问题未做论述。事实上这些问题也应列入本领域企业的风险关注清单，审慎处理。

注释（上下滑动阅览）

【1】https://www./news/technology-65139406

【2】https://www./tech/chatgpt-ban-germany-ai-privacy-b2314487.html

【3】2023年4月11日，国家互联网信息办公室关于《生成式人工智能服务管理办法（征求意见稿）》公开征求意见的通知，原文见http://www./2023-04/11/c_1682854275475410.htm

【4】https://www.gov.cn/zhengce/zhengceku/202307/content_6891752.htm

【5】AIGC研发及应用数据隐私合规义务识别——以意大利监管ChatGPT为切入点

【6】http://news.sohu.com/a/685613982_362225

【7】第四条提供和使用生成式人工智能服务，应当遵守法律、行政法规，尊重社会公德和伦理道德，遵守以下规定：

（一）坚持社会主义核心价值观，不得生成煽动颠覆国家政权、推翻社会主义制度，危害国家安全和利益、损害国家形象，煽动分裂国家、破坏国家统一和社会稳定，宣扬恐怖主义、极端主义，宣扬民族仇恨、民族歧视，暴力、淫秽色情，以及虚假有害信息等法律、行政法规禁止的内容；

（二）在算法设计、训练数据选择、模型生成和优化、提供服务等过程中，采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视；

（三）尊重知识产权、商业道德，保守商业秘密，不得利用算法、数据、平台等优势，实施垄断和不正当竞争行为；

（四）尊重他人合法权益，不得危害他人身心健康，不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益；

（五）基于服务类型特点，采取有效措施，提升生成式人工智能服务的透明度，提高生成内容的准确性和可靠性。

【8】第八条在生成式人工智能技术研发过程中进行数据标注的，提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则；开展数据标注质量评估，抽样核验标注内容的准确性；对标注人员进行必要培训，提升尊法守法意识，监督指导标注人员规范开展标注工作。

【9】https://www./2022/11/8/23446821/microsoft-openai-github-copilot-class-action-lawsuit-ai-copyright-violation-training-data

作者简介

杜帅，北京金诚同达律师事务所合伙人

专业领域：知识产权、技术交易、技术秘密

杜帅律师拥有技术和法律双重背景，多年专注于为高端制造、半导体、通信、人工智能、媒体娱乐等领域的客户提供法律服务。杜帅律师擅长处理与互联网商业模式、商业秘密、数据、跨境技术交易等相关的法律问题，执业期间代理多起涉及技术秘密、计算机软件、专利、互联网领域不正当竞争等在行业内有影响力的复杂纠纷。杜帅律师还具备在企业从事法务的经历，熟悉企业合规、技术布局与运营、供应链风险管控等方面的专业技能，能够为客户提供全方位的法律服务。

联系方式：

dushuai@jtn.com

作者：杜帅

编辑：Sharon