中国AI绘画行业调查报告——技术，用户，争议与未来

老林37 2022-11-22 发布于北京

展开全文

前言

报告的数据及来源包括公开新闻媒体文章，第三方统计数据，6pen 自身数据，以及我们收回的 2398 份问卷调查和对部分行业资深人士的深度访谈。

我们的问卷通过 6pen 自有渠道，即刻，微博，以及行业 KOL 分发，最终有效收到 2398 个提交，它们可能是这个行业首次的大批量对用户的直接调查，并聚焦在国内市场，我们认为其具有相当的参考性。

利益相关：本报告由 6pen 调查发布，作为行业从业者，本报告将更多从技术，用户及行业整体视角出发。

AI绘画技术发展的简要脉络

GAN时代

在 diffusion 被广泛运用于AI绘画之前，这种艺术形式的主要实现方式 GAN （Generative Adversarial Nets ），以NVlabs的SPADE为例：用户提供草图，由GAN模型将其转化为真实的风景图像。这听起来有点像AI绘画里的img2img，但在这类模型里，用户无法通过文本影响生成结果。

NVIDIA 开源模型 SPADE可以将草图变成真实的自然风景

直到类似 CLIP 这种跨模态的图文模型出现，才让用户有办法用文字实现AI作画。后来者如VQGAN+CLIP 或StyleCLIP，均是因为CLIP打通文本和图形域(domain)，用户输入的文本与GAN生成的结果真正有了「可比较性」，这使得计算二者误差并迭代效果成为了可能。

StyleCLIP 可以根据用户输入文本调整人脸五官和头发等属性

GAN在模拟分布方面有着天然的优势，因此它在人脸属性编辑、风格模仿等领域大放异彩，例如给人戴上墨镜、加上胡子、生成动漫脸、模仿小说风格。也正因如此，它也很容易陷入模型坍缩(Model Collapse)，即生成器(Generator)倾向于生成那些最不容易出错、能骗过判别器(Discriminator)的结果，例如当用户希望生成'眼睛长在鼻子下面的人脸'，或'戴着用鲜花构成的眼镜'这种域外(Out-Of-Domain)的结果时，GAN通常会失效。

Diffusion 崛起

和大多数人以为的相反，Diffusion 其实是早于 GAN 被提出的，但因为 Diffusion 依赖大模型实现，所以对大部分用户的进入门槛较高，研究者也不多，直到 2021 年，因为开源项目 Disco Diffusion(也被简称为DD)，Open AI的商业服务 Dalle 等，Diffusion 才开始被更多人了解。

Diffusion 模型的前向和反向过程

2022年，Disco Diffusion 经过更多开发者的贡献，效果有了较大提升，通过 Google colab 的方式运行(很多人因此误以为 DD 是 Google 发布的)，也降低了使用者尝试使用的门槛，在 2022 年 4 月左右，DD 生成的图像在社交网络上得到广泛传播，进一步带动了 Disco Diffusion 的破圈。

同一时期，包括 6pen 在内，国内开始有小部分团队和公司进行 DD 的产品化工作，旨在进一步降低 DD 的使用门槛，包括：

提供人机友好的交互界面

提供云端的算力服务

对 DD 的模型做 finetune（微调）

通过封装 CLIP 关键词等方式，降低用户使用门槛，提高风格化效果

在研究领域，也有诸多机构或公司进入模型层的研究，例如清华大学的 cogview ，百度的文心，微软的女娲模型， 6pen 的南瓜模型等等，因为 DD 在社交网络的破圈，这些产品和模型都得到了更多人的关注和使用，但依然有很多较专业的中国用户会通过各种方式使用 midjourney 和 Dalle2 等国外的商业化产品。

Stable Diffusion 开源的潘多拉魔盒

在 Stable Diffusion 之前，开源方案里最好的AI绘画实现毫无疑问是 Disco Diffusion，但 Disco Diffusion 也存在诸多问题，例如：

生成速度慢（基于像素迭代），由此带来的问题是生成成本高（显卡成本高昂）

生成图片逻辑性较差，画面结构经常错乱

几乎无法生成人和物体

弥补 Disco Diffusion 的不足，是许多模型或研究团队的方向。CompVis提出的 latent diffusion 将diffusion过程从图像层面迁移到了隐变量(latent)层面，这将推理耗时降低了一个数量级(~10min->30s)。latent diffusion 在模型内嵌了一个很小的文本模型，使得生成过程不必依赖CLIP等开源语言大模型，但这也使模型对用户输入文本的理解能力较弱，生成的结果文不对题。

latent diffusion 将 diffusion 过程从像素图压缩到隐空间

6pen 提供的南瓜正是基于对它的某种改进：将 CLIP 模型替换掉 latent diffusion 自有的文本编码小模型，计算模型结果与文本间的 CLIP 误差来优化生成过程，因此模型对用户文本理解能力、生成质量都有了明显提升。后来的 Stable Diffusion 也是基于 latent diffusion + CLIP 思路做了模型结构、数据方面的优化，并进行了大规模的训练，达到了堪称惊艳的效果。

Stable diffusion 在 2022 年 8 月下旬由 Stability 发布，Stable diffusion 拥有强大的特性：

极快的速度（基于隐空间迭代）

远超 DD 的画面逻辑

能较好的处理人和物体

更多的风格化，例如二次元风格

更简易的训练框架

Stable Diffusion 极大降低了行业的进入门槛，包括技术门槛和储备显卡的成本，带来了较多的竞争者入场，但同时也有部分基于 Stable Diffusion 的创新应用开始出现，例如文生视频，图片无限拓展，和 3D 建模工具结合等等，毫无疑问，Stable Diffusion 具有这个时代的革命性。

我们目前就处在这个时间节点。

AI绘画的用户画像

用户基础画像

根据我们的回收报告显示，国内的AI绘画用户特点是年轻化，其中 46% 以上是大学生和研究生，其中甚至有 18% 是初中和高中生。

从城市分布上，绝大多数用户还是分布在一二线城市，其中北京占8.7%，深圳占7.8%，但青岛出人意料的排在了第四，占到了6.1%。南方城市占绝大多数，北方城市较少。

在受众用户的行业分布上，调查结果和我们预期差异较大，美术和设计工作者仅仅只占 24.2%（排名第二），排名第一的行业是线下行业（26%），排名第三的是互联网行业（24%）。

在使用AI绘画的具体方式上，38% 的用户只使用在线服务，使用自己显卡的用户占到16%，即便如此，依然有21%的用户表示，虽然目前自己使用在线服务，但未来希望使用自己的显卡，与之相反，现在使用显卡，并表示未来会使用在线服务的用户，只占 4%。

用户付费及收入调查

根据我们的调查，60% 的用户并没有在使用AI绘图产品上有过付费行为，也就是完全免费在使用，剩下40% 的付费用户中，16% 付费在 10 元以内，14% 在100元以内，付费超过 100 元的不到 10%。

与此同时，我们也调查了用户通过AI绘画产生收入的情况，结果显示绝大部分用户（92%）没有通过AI绘画产生收入，也就是「单纯娱乐使用」，4% 的用户获得了 100 元以下的收入，1.9% 的用户获得了100-1000 元的收入，而获得超过 1000 元收入的用户，占 2%。

用户认知

问卷调查显示，42% 的用户认为 AI 绘画单纯只能满足娱乐需求，38% 的用户认为AI绘画可以部分运用到工作之中，9.17% 的用户认为AI绘画具有颠覆性，与此同时，也有 7% 的用户认为这根本不值一提。

绝大部分受访者在最近一个月（8-9月）才了解到AI绘画领域，今年上半年开始接触的占 27%，去年就了解的仅占 23%。

我们的问卷包括对模型的使用，为了保证客观，我们排除了 6pen （来自6pen渠道的用户会影响数据准确性，我们将单独展示 6pen 不同模型的使用比例），对用户使用其余模型进行了统计，目前可以看到 Disco Diffusion 略微占优，第二名是 Stable Diffusion，第三名则是 midjourney ，令我们惊讶的是，老牌的 AI 绘图产品 wombo dream ，依然有比较广泛的受众，甚至比著名的 Dalle 系列被更多人使用。

与此同时，6pen 内的近千万次用户使用模型数据则显示，Stable Diffusion 被使用的最多，占到了77%，Disco Diffusion模型占 10%，南瓜占 13%。

用户的使用场景

绝大部分的用户表示，使用AI生成绘画作品，仅仅是自己欣赏，同时表示会分享给朋友的占 56%，6%的用户表示会自己加工之后在工作中使用，低于2%的用户会将生成图片直接商业使用，此外还有23%的用户表示，会发布在社交网络媒体以增加粉丝关注。

平台和工具的商业模式

直接向用户收费

目前，绝大多数产品化的 AI 绘画服务几乎都通过按照生成收费的方式获得收入，如下：

Stable Diffusion

模型开源免费
Dream Studio 及 API ：0.01 欧元 / 基础调用

midjourney

10 美元 / 月：200次快速生成+不限量的排队生成
30 美元 / 月：900次快速生成+不限量的排队生成
4 美元 / GPU小时
600 美元 / 年企业套餐

Dalle

0.13 美元 / 生成

6pen

不限量的免费排队生成
付费快速生成：0.1人民币起

可以看出，商业化的 AI绘画的服务目前几乎不区分 ToB 或 ToC ，更多是提供按量或按需付费的服务，无论是企业还是个人用户都可以使用。这种收费模式是因为这些原因：

AI生成使用显卡服务器，维持免费使用需要付出巨大成本

缺乏生成图之后的闭环，无法从免费用户获得其他方面的收入

受限于尚处在争议中的版权及其它道德因素，其它商业化手段还有待探索

ToB 的可能性

AI绘画在 ToB 领域天然拥有更多可能性，但受限于模型质量，版权争议，以及目前较早期的技术阶段，还很少有公开落地的案例，但我们认为在下列方向，可能会在未来涌现出更多 ToB 的成功案例：

广告行业

ToB 素材库

设计师/美术工作者辅助工具

营销定制服务

线下实体结合服务

元宇宙等线上虚拟空间

争议，问题，潜力和未来

争议

目前 AI 绘画的最大的争议在于版权归属，以及模型是否有权利指定版权归属，众所周知，AI模型训练所使用的大量素材，可能包含了未经授权的，有明确版权方的图片数据，因此模型源头就带有「未经授权」的烙印，支持者一方则认为，AI模型经过训练，迭代，蒸馏，最终沉淀下来的是单纯的，崭新的运算方法，由这种运算方法产出的图片，版权归属应该由模型指定。

即便如此，目前获得较多认可的说法是，如果在AI生成图片的文本描述( prompt )中，指定了在世的艺术家，那么绝对不应该申明该图片的版权。

我们提倡，如果在生成 prompt 中指定了在世艺术家，那么至少应该将AI生成的图片以 CC0 协议发布，同时应该保留艺术家的相关信息，并且在得到艺术家授权前，尽量不做商业用途，即便这样，依然可能会对艺术家造成困扰，目前全世界范围内对此都还在进行讨论，AI和人类艺术家的更好的合作规则也急需尽快建立。

版权问题的探索

6pen 对原创艺术家发放问卷，并搜集到了 368 份艺术家反馈，其中 7.1% 的受访艺术家明确表示自己已经被 AI 模型学习，67%的艺术家对此还不确定。

27% 的艺术家无论如何都不希望AI模型使用自己的风格，27%的艺术家希望如果生成者使用了自己的风格，那么需要在使用图片时展示艺术家的信息，37%的艺术家希望如果使用自己的风格，那么需要向自己付费，完全不介意的只有6.9%

对目前的 AI 绘画（包括模型和产品），绝大部分艺术家都持有负面的态度，NPS评分低至-89，这主要的原因在于，那些在未经授权就被模型学习的大量人类艺术家，其本身并不能从模型生成中获益，但生成的图片却可能为生成者带来收益，这既不公平，也在某种程度上破坏了生产关系，还将进一步瓦解人类的创作动力——为了免于成为模型学习的素材，原创性的探索将会减少，新的风格，范式，流派都可能会停止出现。

但是，如果未来AI绘画能更具规范，例如：