AI生成物急增导致数据污染「左脚踩右脚」的学习路径导致模型崩坏

金刚光 2023-06-24 发布于辽宁

展开全文

本文并非完全翻译原文，而是用更本地化的语言进行转述，并添加更多论文中内容。原文请参考以下链接：https:///news/20230614-feedback-loop/

在Adobe发表使用“完全没有版权问题”的模型的AI图像生成软件「Firefly」，与最近接入Microsoft搜索引擎的「Chat GPT」活跃的背景下，据咨询公司在世界范围的调查，「有接近50%的在职人员开始在工作中使用生成式AI」。生成式人工智能已经开始大规模的在社会中传播。

但是，由于使用生成式AI（以下简称AI）生成并公开的内容，与使用人数的急剧增加，新的问题「AI生成的内容充斥在网络上，而这些生成数据又再次被抓取并被AI学习的情况下可能会产生重大的问题与缺陷」被相关研究团体指出。

AI生成循环：研究人员警告，使用AI生成内容进行AI训练会导致模型崩溃

The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content | VentureBeat
https:///ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/

输入相应tag进行简单数据调整后便可生成高精度图像的「Stable Diffusion」或「Midjourney」与使用自然语言进行对话生成高精度文章的「Chat GPT」等为代表的生成式人工智能够短时间内急速发展扩张的最重要的原因是得益于大规模语言模型（LLM）。高适应性与泛用性的LLM加上大量被收集的无视版权与相关网站规定与创作者意愿的数据，使AI能够学习文章与图像的结构与规律。

原本LLM所使用的训练数据都是来源于书籍、网络上的文章与记事以及照片与插画，这些人类在没有生成式人工智能的情况下的创作。但是随着生成式人工智能的发展，受使用AI生成相关内容并在网络上公开的人数激增的影响（其中大部分会刻意或无意不说明或注明发表内容来源于AI）作为学习源头的训练数据有很大的可能性会遭到巨大的影响。

2023年5月末，英国与加拿大的研究者团体以《递归的诅咒》（The Curse of Recursion: Training on Generated Data Makes Models Forget）为题的论文在arXiv上发表，论文详细叙述了「生成式人工智能技术的未来揭示了令人担忧的事实」相关的内容。

递归的诅咒：使用生成数据进行训练会使AI模型产生“遗忘”

[2305.17493] The Curse of Recursion: Training on Generated Data Makes Models Forget
https:///10.48550/arXiv.2305.17493

全文：https:///pdf/2305.17493.pdf

在论文中作者们明确列出以下观点：

· 实验证明了模型在使用AI生成内容学习中存在退化学习行为，并将其命名为模型崩溃（Model collapse）。

· 通过对不同类型模型的不同类型数据进行实验，证明模型崩坏现象在不同的AI模型中均有存在。

· 实验证明，避免模型崩溃的至关重要的一点就是使用真正的人工创作内容进行训练。

论文的主要作者之一的Ilia Shumailov（JRF牛津大学，Vector Institute研究员，剑桥大学博士）指出「根据对文生文与图生图的AI模型的概率分布研究，即使长期AI学习出于几乎完全理想的条件下，“数据分散（丢失）”的过程也难以避免，随着训练数据与时间的增加，模型中的数据的错误会逐渐增加，最终从生成的数据中学习会进一步导致AI错误的感知现实」（实验模型：GMMs，VAE,LLMs）

『We show that over time we start losing information about the true distribution, which first starts with tails disappearing, and over the generations learned behaviours start converging to a point estimate with very small variance. Furthermore, we show that this process is inevitable, even for cases with almost ideal conditions for long-term learning i.e. no function estimation error.』

Ilia Shumailov指出，学习模型在使用AI生成内容进行训练的情况下可能会立刻“遗忘”掉原始的训练数据，“我们惊讶地观察到模型是如此迅速的崩坏”她在文章中如是说道

模型崩溃是指使用生成内容训练导致的退化学习，模型开始“遗忘”不可能事件（improbable events），随着时间推移，模型将会不可使用。

进行自生成内容训练迭代后一条“长尾巴”出现在后面，迭代训练的模型考试产生原始模型中没有的样本——这是基于原始数据的错误数据积累。图15以3D形式进行了展现

要避免这种广义上的模型坍塌，至关重要的的一点就是模型中原始数据（非AI生成内容训练数据）的分布，即需要使用真实的人为创作的数据进行训练。换句话说使用生成式AI在网络上大规模发布相关内容会不可避免的造成训练数据污染：这也意味着未来人类创作的数据反而会越来越具备高价值。

同时论文作者之一的Ross Anderson（剑桥大学于爱丁堡大学信息安全工程学教授）在自己的博客上针对论文中的模型崩坏相关研究与现象指出“这就好比我在海洋中乱扔塑料垃圾，在大气中排放工业废气是一样的，AI生成内容也在彻底掩埋互联网。LMM（大语言模型）好比火一样的东西，在制造便利的同时也在摧毁污染环境”。

同时Ross Anderson继续指出，随着网络上的内容被AI生成内容大量填充，在网页上抓取（web scraping）用于新模型训练的数据将会极其困难，这将会导致已经持有大量合适训练数据与人类创作内容的公司企业将会在AI领域取得巨大的不可取代的优势。Internet Archive 博客记录显示，已经有不少的AI初创公司向Internet Archive发出大量的访问请求，以求获取干净的人类创作内容以作训练数据

此流程描绘了模型崩坏不可避免的已经发生的现实原因：在互联网中模型生成的数据无处不在

AI内容训练AI导致模型崩坏的其中一种机制原理，被Shumailov称为「数据偏移」

GMM与VAE模型的模型崩坏

此外即使为了避免这种情况大幅减少训练周期的多次迭代，因为模型为了避免数据频繁重复，错误回应上升，导致模型崩溃依然会发生。

作为模型崩溃的对策，论文中指出「对原始数据集保留并独占，对人类创作内容的数据集进行高等级复制并保存，以用于定期的重新训练或者完全刷新它，以避免被AI生成的数据污染」同时「将新的确保完全由人类创作内容引入数据集以用于新的训练」等措施。

Shumailov指出，为了防止崩坏的产生，同时确保AI学习的量，能够对生成物的特征进行正确的描写，能够客观的准确的完全表现出数据集中的少数要素是十分重要的。在VentureBeat对其的采访中她表示「我们原本以为在训练数据中包含10%的人类创作内容数据，其它部分使用AI生成数据进行训练可以使模型崩溃的发生不那么快，但是崩溃依然发生了，虽然确实迟了些。」

译者记：AI生成内容对于AI训练的误导是一方面，同时显然它也会同样作用于人类。因此不论是从AI发展还是人类自身发展来看，除了对AI的辨别鉴别外对AI生成内容进行标识的强制化与义务化法律化都是紧迫且必须的。