【原】陈根：智能换脸风靡一时，快速下架

陈根谈科技 2021-03-05

展开全文

文/陈根

不论技术用怎样的特效打造了可供娱乐的智能换脸，其背后的风险都值得人们警惕。

过去几天，人工智能生成动图的风潮席卷了大半个互联网。从抖音到微博，人们齐唱“蚂蚁呀嘿”的画面不断刷屏。而其玩法则来于国外的一款AI软件——Avatarify。尽管该软件在短时间内就登顶苹果 App Store免费榜，但很快，甚至还不满一个星期之后，Avatarify就遭到了下架。

而类似的玩法，相似的走红，快速的下架，其实在2019年就已发生。2019年，换脸软件ZAO正式上线。上线仅一天时间，这一产品就刷爆各大社交平台，其在App Store的免费App下载快速登顶，甚至服务器也因为制作量过大而宕机。但是ZAO从上线到App被下架，仅仅用了3天时间。

事实上，不论是Avatarify还是ZAO，其走红可能是一场猎奇的意外，而下架却是风险衡量后的必然。资本用技术特效打造了可供娱乐的智能换脸，但欢乐的背后却往往需要更深的警惕。

智能换脸的技术内核

智能换脸走红可以追溯到 2017 年。当时，国外论坛一个ID为“deepfakes”的用户，发布了通过机器学习来更换视频人脸的 AI 算法。但由于该算法还需要编译代码等操作，使其技术的使用门槛较高。

一个月后，有用户将其公开的的算法加以改造推出了简易版 AI 换脸工具“FakeApp”，而这次，就算是普通用户，也能够顺利操作。

从技术角度来看，DeepFakes是“deep machine learming”（深度机器学习）和“Fake photos”（假照片）的组合，是依托大数据和人工智能深度学习机制，基于数据算法和人脸数据库对既有视频或图片中的人物面部图像进行替换的技术工具。

在开源代码库平台CitHub上，DeepFakes被描述为“一种利用深度学习技术来识别和交换图片、视频中人物脸部图像的工具”。只要有足够的图片视频素材，有一定的硬件支持，DeepFakes就可以搭建算法匹配模型进行换脸视频的制作。

其具体原理思路为：对于每张脸，都训练一套编码器和相应的解码神经网络。编码时，使用的是第一个人的图片。而解码时，却是使用第二个人的解码器。而其中主要包含数据预处理、图片融合、图像预处理、网络模型、图像融合等技术。

此外，利用AI制作换脸视频除了要借助已开源的DeepFakes技术，还需要两个竞争AI系统的参与，一个是生成模型，另一个是判别模型。生成模型和判别模型的结合被称为生成对抗网络技术（CenerativeAderaril Netwoks，CAN），也是AI换脸最底层的逻辑。

GAN是AI机器学习中较成熟的理论。在最开始的技术中，DepFakes正是借助生成对抗网络，通过上万张照片来替换视频每秒钟存在的30个画面，最终通过GPU（CaphiesPoesing Unit，图形处理器，简称“GPU”）训练完成“移花接木”，仅凭一张照片便可实现面部替换和视频生成。

GAN由生成器和识别器两个相互竞争的系统组成。建立GAN的第一步是识别所需的输出，并为生成器创建一个培训数据集。一旦生成器开始创建可接受的输出内容，就可以将视频剪辑提供给识别器进行鉴别；如果鉴别出视频是假的，就会告诉生成器在创建下一个视频时需要修正的地方。

根据每次的“对抗”结果，生成器会调整其制作时使用到的参数，直到鉴别器无法辨别生成作品和真迹，以此将现有图像和视频组合并叠加到源图像上，终于生成合成视频。

随着“FakeApp”的开发，DeepFakes技术变得唾手可得，后来的ZAO和现在的Avatarify的出现正是基于这一技术。不同的是，对比DeepFakes需要大量的技术专业知识、庞大的数据集以及昂贵的GPU，ZAO和Avatarify都已经更容易使用，也更容易访问。以至于Avatarify相关话题播放在短短七天内就已高达 27.8 亿次，特效则被 785万人使用。

智能换脸的娱乐代价

社交媒体时代，人们经常要为一些快乐付出代价。短视频让人们获得了轻松、通俗、娱乐的时间，也更容易造成大众对其断章取义，对众多事物产生过于简单甚至错误的认知。信息流通的成本降低，速度加快，随之而来的就是繁杂多样的信息冗余以及真假参半的各类消息。

人们在社交媒体时代有所选择，也为此让渡一部分权利，但有些风险却过于沉重且往往带着不可挽回的损失。智能换脸就是其中之一。

首先，智能换脸进一步增加侵犯肖像权和隐私权的可能。没人愿意自己的脸庞出现在莫名其妙的视频当中。

此次Avatarify的流行过程中，马云、马化腾、马斯克等一众商业巨头们就成了娱乐的对象，以至于被迫组合在一起集体演唱神曲《蚂蚁呀嘿》。除此之外，刘德华、张学友、郭富城和黎明也被召集演唱了神曲，网友吐槽“一打开抖音，好像捅了蚂蚁窝。”

娱乐之外，却不得不让人心生忧虑。披着娱乐外衣的AI换脸，冠冕堂皇地使用着他人的肖像，而其应用对肖像权和隐私的侵害更将随着技术的泛滥而放大。于是，借助一些低价乃至免费的软件，消费者无需专业知识和技术能力，即可通过终端实现调整速度、摄像头效果、更换背景、实现换脸等操作。

而这些眨眼、摇头等动态行为信息，都是用户不可更改的敏感信息，一旦被非法使用，后果不堪设想。2019 年 3 月份，《华尔街日报》报道，有犯罪分子使用深度伪造技术成功模仿了英国某能源公司在德国母公司 CEO 的声音，诈骗了220 000 欧元（约1 730 806人民币），其破坏性可见一斑。

其次，这也在一定程度上成为了色情视频滥觞的源头。值得一提的是，AI换脸最初的猎奇就是被应用于色情行业。2017年，美国新闻网站 Reddit的用户首先上传了经过数字化篡改的色情视频，即这些视频中的成人演员的脸被替换成了电影明星的脸。此后，Reddit网站就成了分享虚假色情视频的一个阵地。

2019年出现的一键生成裸照软件DeepNude，只要输入一张完整的女性图片就可自动生成相应的裸照。受害者通常没有追索权，并且，照片上传之后难再删除。这种轻易生成的色情视频将很大程度上损害女性的工作前途、人际关系、名誉和心理健康，造成污名化女性、色情报复的恶果，使女性暴露在某种集体监视之中。

最后，也是智能换脸带来的最严重后果，就是对于信息的真实性形成的严峻挑战。自从摄影术、视频、射线扫描技术出现以来，视觉文本的客观性就在法律、新闻以及其他社会领域被慢慢建立起来，成为真相的存在，或者说，是建构真相的最有力证据。“眼见为实”成为这一认识论权威的最通俗表达，在这个意义上，视觉客观性产自一种特定的专业权威体制。

然而，PS 发明后，有图不再有真相。智能换脸的出现和流行，让视频也开始变得镜花水月了起来：人们普遍认为视频可以担当“实锤”，而现在这把实锤竟可凭空制造，当真伪界限被数字化操纵，娱乐的趣味性与真相的真实性在混淆视听的人工智能生成物问世后变得更加模糊。这对于本来就假消息满天飞的互联网来说，这无疑会造成进一步的信任崩坏。

如今“眼见为实”已不再适用，人类难以在日常的社会生活中区分数字面孔与自然人，虚假内容轻易取得信任，真伪之辨难上加难，合理的猜测与过度猜忌的界限更加难以平衡。当人工智能能自动生成以假乱真的面容、声音乃至语言的时候，互联网乃至整个社会又该如何应对这种身份信息的混乱？

可以说，不论是Avatarify还是ZAO，其走红可能是一场猎奇的意外，而下架却是风险衡量后的必然。不论是从法律规制的角度，还是技术应对的角度，人们都尚未准备好迎接这一技术带来的挑战。越是新技术时代，技术越应该被善用，泛滥带来的过度娱乐虽然利好了商业，却是一种僭越。