我们尝试用AIGC来进行工作，发现……

天承办公室 2023-04-13 发布于江苏

展开全文

早在ChatGPT席卷全球之前，在2022年，以AI绘画、AI语音等等为代表的AI内容创作，又叫生成式AI（AIGC）就在互联网上掀起了一股热潮，其中尤以AI绘画最为热门，NovelAI、MidJourney、Stable Diffusion等AI绘画工具横空出世，震动了整个互联网内容创作圈，我们在今天也能在网上看到层出不穷的“以假乱真”的AI绘画作品。在沉迷于这样的“机械画皮”之外，笔者想到，是否可以完全用AI为我们生成一个虚拟主播，用于《中欧商业评论》的视频和直播中，甚至用全程用AI制作视频。于是在这段时间的折腾中，我们尝试了大量的AIGC工具，AIGC的革命性到底如何，也许能从此看出一二。

市面上的AIGC工具已数不胜数，几乎每天都有新的AI工具问世，在我们这次的折腾中，我们抱着“神农尝百草”的精神，在各种尝试之后，主要使用了以下AIGC工具（表 1）：

◎表 1 掌握了以上工具，你也能全程用AI创造出以虚拟人为主角的视频

AI画图一时爽，

投入使用两行泪

最初对于虚拟主播的设想来自于2022年底NovelAI的流行，在这个网站上，通过输入各种描述（仅限英文），可以由AI画出我们设想中的二次元萌妹子形象，于是我们突发奇想，为什么不用AI做几个虚拟主播玩玩呢？于是，这场AI引起的折腾开始了。

我们的设想是用AI画一对姐妹样式的二次元虚拟人，一位现代风的和一位国风的，分别用于不同风格的视频和直播内容。经过多次尝试和调整之后，我选出了两幅比较满意的画作（图 1）：

◎图 1 NovelAI产出的两幅我们还比较满意的虚拟人形象

NovelAI使用云端算力，对电脑配置没有要求，但画图需要付费消耗点数，生成分辨率高的一张图大约要花0.1美元，要不断尝试直到生成满意的画作，还是要花不少钱的。尽管基于NovelAI背后的开源模型，可以将其部署到本地免费使用，但这样的话则由于消耗显卡算力，对电脑显卡性能要求较高，出图速度慢，当然还有一个更重要的问题——NovelAI的画风单一，图源明显来自于网络画师，可能有版权问题。

由于NovelAI的种种缺点，我们并不能真正享受到AI绘画的乐趣，于是我们把目光投向了其背后的开源AI图像生成模型Stable Diffusion WebUI（简称SD）——部署在本地，免费，需要电脑有较好的显卡和较大的固态硬盘，一次生成的图片越多，或者图片的分辨率越高，对电脑显卡性能的要求也就越高。使用者需要花很多时间学习词条指令、调试参数、加载各种模型、操作各种图片生成模式等等，同时因为是开源模型，新功能、新玩法层出不穷，需要用户时刻跟进学习，学习成本较高。操作繁琐复杂的同时（图 2），是极为丰富的可玩性和DIY乐趣，以及庞大的模型素材库引起的更加严重的版权纠纷。前不久，美国的盖蒂图片社（ages）t> ImGetty起诉了SD的母公司Stability AI，指控它为了创建一个图像生成模型而侵犯了盖蒂图库中数百万张照片的版权。

◎图 2 要精通这让人头皮发麻的操作界面和霍格沃茨都直呼内行的生图指令，需要投入大量的时间和精力学习钻研，中间学习操作的过程也是小问题不断

这一次，我们想画出有一定写实风格、身着职业装的虚拟女性人像作为我们的视频旁白播音员，经过大力钻研，目前靠笔者的一台2019年RTX2070显卡的老笔记本电脑，不算调试参数和指令的时间，基本上5分钟之内能生成一张质量还不错的图，基于如今琳琅满目的各种模型，理论上可以自由生成无限种不同风格、不同款式、不同形象的虚拟人像画作（图 3）。

◎图 3 通过不断调试，我们已经能通过Stable Diffusion生成我们想要的虚拟播音员图片，接下来就是让她动起来说话了

结果没想到，这一切才仅仅是个开始。要把AI生成的人像图片变成虚拟主播，按照传统由立绘到虚拟主播的方法，需要用PhotoShop（PS）先拆分图层，再到一个叫live2D的软件进行建模，配合面部捕捉软件和OBS（直播推流和录制视频必须要用到的软件）录制视频和直播，这下笔者实在是学不动了，决定探索有没有AI画作直接变身虚拟人的邪术。

结果是万能的B站上还真有个邪术，一个由民间大神开发的AI程序，叫作EasyVtuber。利用AI抠图软件扣除AI人像图片中的背景，再进行AI高清化处理后，加载EasyVTuber，就可以跳过一般虚拟主播要使用的立绘拆图、live2D建模和面部捕捉，直接连接到OBS使用。但由于必须用到OBS上的一个特定插件，仅支持旧版的OBS，实际效果差强人意，仅仅头能动，像是个简陋的摇头娃娃，或者说仅仅是一幅会动的图片。但无论如何，我们至少是用现阶段的AI技术一步到位，可以快乐地用虚拟人直播和录视频了。进一步看，如果我们只是想要虚拟播音员出镜的话，用AI画作理论上我们有无数种不同形象的虚拟播音员，再结合前文表格中提到的D-ID这样让人像动起来的AI配音工具，配上《中欧商业评论》的背景或者视频画面，就可以任意产出虚拟播音员的配音短视频了（图 4）。

◎图 4 AI生成的虚拟人结合背景模板，投入直播或视频中的效果演示，看起来还凑合

但如果是要打造真正的虚拟主播IP，AI仅仅在立绘生成，即从0到1这一步能派上真正用场。全流程使用AI的话，从效果上来看，还无法与传统人工的制作水平相提并论，如果对虚拟主播有特别定制化的需求，还是建议去网络社区花钱请专业人士绘制一个真正的虚拟形象（没钱的话就慢慢自学吧）。

在这之后，我们想到尽可能多地用AI技术录制视频，这又是好大一番折腾，也就是文章开头的表格是怎么来的——我们可以通过ChatGPT制作视频文本，通过文本由AI绘画生成图片素材，上传文本到AI视频制作软件再根据文字爬取素材生成视频。AI生成的虚拟主播类似于播报员，可以用AI生成的语音念旁白，也可以人工配音，配合D-ID做到面部可动穿插在画面中，理论上我们想做什么样的虚拟主播、什么样的视频都可以用AI随意生成。听上去不错，但从实际效果看，还有很大的提升空间，比如经常还会出现旁白内容与视频内容不匹配的情况。

AIGC的局限

AIGC并不是零门槛，相反对于一般人来说，想要精通AIGC，门槛不低。以AI绘画为例，无论是用何种方式生成图片，首先都需要大量的文字描述编写，这一关就已经需要大量的时间进行尝试和训练，其次则是要学会AI绘画工具的各项功能和设置，调试各类参数。在这之后，尽管几分钟AI就能拿交出一幅画作，但出图质量不稳定，比如众所周知的“AI不会画手”，这也是为什么AI绘画被称为“赛博炼丹”——图片质量靠运气和输入描述指令的水平，需要大量时间进行试错，才能让AI产出满意的成品。

AI技术是辅助工具，它确实能帮人提高效率，却没办法代替人类。在整个AIGC的流程中，依然需要人工的大量参与，并不仅仅在于训练AI。比如笔者在用AI制作虚拟主播和视频的过程中，还是需要用到PS、PR、OBS等主流的内容创作软件，还要将各种类型的AI软件组合起来使用。而如果想要精通各类AIGC软件，成为一名优秀的“炼丹师”，首先离不开的是一部性能强大的电脑（两三万元左右），这在前期的沉没成本上就已经劝退了普通大众。

同时，由于AIGC的发展日新月异，需要大量的时间和精力进行持续的学习和训练，相当于我们需要为AI配置一个全职的AI操作员，这与用AI代替人工的初衷也相违背了。对于非专业人士来说，仅仅用业余时间投入到AIGC中也比较辛苦。由于AI技术每天都在更迭发展，一般人要掌握的话需要花大量时间学习，才能够利用到AI去解放生产力。

而我们在网上看到的那些效果媲美专业人工画作的作品，实际上可能是在昂贵的高端显卡“烧冒烟”的基础上，通过长时间的不断调试，从AI生成的千百张画作中挑出来的，在机器硬件和使用者时间精力上，都要消耗比较高的成本。同时，AI绘画基于固定的模型生成，乍一看惊觉能媲美真人画作，但看多了也是千篇一律，机械感十足，缺乏灵气，更多还在于以假乱真而不是创造艺术价值。这不难理解，毕竟绘画是一种艺术，艺术是情感表达的一种方式。没有灵魂、冷冰冰的代码，怎样取代人类呢？

以虚拟主播为例，尽管我们亲手用AI做出来了一个能用的东西，但也仅仅是能用而已，使用上受到很多限制，实际效果离传统的花上几千上万元由专业画师和模型师花上个把月时间手工做出来的虚拟主播，还有很大差距。生成来的虚拟人也仅仅是个形象，要赋予其灵魂，还需要由真人配音和扮演，因为AI语音现在的效果不佳，虚拟主播没有中之人也没有人格魅力（这在我们之前关于虚拟偶像的文章中有过详细讨论）。

在用途上，AI绘画无法一次性用文字直接生成连续性的图画，也就是说我们如果要用绘画具有连贯情节的作品，还是需要一张一张通过改变文字描述来给AI下达指令去完成。也就是说，AI绘画目前最适合的应用点还是在于绘制单张的插画。整体来说AIGC在现阶段还仅仅是一个尝鲜或者猎奇的水平，离真正普及，让人人都成为艺术创作者还为时尚早。

AIGC的争议

AI作品能以假乱真，随之首先带来的是法律和伦理问题，比如盗用名人形象用AI绘画软件生成不雅图片，带来了类似于此前AI换脸的乱象（图 5）。

◎图 5 在AI绘画模型下载网站上，充斥着由名人图片制成的AI绘画模型，和各类成人内容

我们并不知道AI生成的图片使用的素材是否具有著作权归属。AI在接受训练来生成栩栩如生的内容时，吸收了海量的受版权保护的数据，这些素材并不“干净”，来源五花八门，覆盖了整个互联网。AI模型被指往往在未经允许的情况下搜掠数据库，在未经同意、未署名或补偿的情况下大量窃取他人作品进行训练。各AI平台对其用户产出的内容基本上都采取放任不管，完全无视版权的态度。如果我们将用AI生成的图片和参与制作成的视频投入到商用中，或者之后再被人拿去使用，其中是否构成对知识产权的侵犯？事实上，随着成本低廉的AI画作大面积泛滥，真出现版权问题也很难被追究，当大家都用着AI绘画作品赚钱获益时，艺术原创者的呼声被AI大潮淹没时，知识产权问题是否还值得关注（图 6）？打个比方，如果我以迪士尼公主为模型，用AI画出了一位迪士尼公主风格的虚拟人牟利，迪士尼会起诉我侵权吗？如果其他人直接拿去了我用AI创造的虚拟人投入商用，我能告他侵权吗？

◎图 6 就在前不久，B站上的一位知名画师公开表明了对AI作品的抵制态度，引起了相当大的反响

AIGC的前景

从目前AI的工作能力来看，在技术水平上离代替高水平画师还有较大差距（这也是为什么一副好的虚拟主播皮套动辄需要几千上万元的价格），在硬件上需要有较好的物质条件基础，在操作上需要花大量的时间和精力学习，也要大量的时间去试错和训练，同时还有较严重的伦理和侵权问题，因此就大规模的商业化应用场景来看，目前比较可行的是作为一个辅助专业创作者的工具，提高工作效率，帮助他们事半功倍，还无法替代创作本身。而从个人经历来看，笔者觉得AIGC最大的价值在于，帮助人们去拓展想象的边界，让我们的一些想象，比如笔者一个美术小白的一些想象中的画面，通过AI能一定程度上付诸于现实。

尽管社交媒体上的AI神乎其神，我们在生活中也在到处与AI打交道，但就现在而言，AIGC的作用主要体现为辅助创作的工具，还很难说AI就能取代各类专业人士的毕生所学。对我们这样的AI小白来说，要上手尝试AI，过程还是曲折不断的，但折腾本身也是一种乐趣，与其担心被AI淘汰，不如去拥抱AI日新月异的发展，不断学习实践，更新自己的技能和知识体系，亲身体会AI带来的乐趣，用AI辅助我们的工作，帮助我们解放生产力，探索我们曾经触不可及的领域。