先来看看通过照片 + 音频合成的视频到底效果如何? 通过著名科学家爱因斯坦的一张照片,再配合上他本人之前的演讲,就能合成出这样一段视频: 被称为“俄国妖僧”的拉斯普京早在百年以前就去世了,但是通过这项技术,他竟然能在视频里大唱著名歌手碧昂斯的热单《Halo》: 虽然声音仍然是碧昂斯的,但是通过视频能够看到,照片中人物的口型几乎和歌词是一模一样的。 如果说之前的两个案例还算是正常发挥,那么下面这段视频就有些“放大招”的意思了: 不仅合成了与输入音频匹配的视频,而且还可以通过调整表情以传达特定情感。请记住,创建这些视频所需的只是一张图片和一个音频文件,算法完成了其余所有工作。 这几个案例虽然看上去有些唬人,而且合成的视频并非是 100% 完美无缺的,但它是这项技术发展速度之快的最新例证,其背后的原理值得探索。 据介绍,这是一套端到端系统,生成的视频拥有与音频同步的唇部运动和自然的面部表情,例如眨眼和皱眉。这项研究的相关论文也入选了 CVPR 2019。 论文地址:https:///pdf/1906.06337.pdf 图 1:论文提出的端到端人脸合成模型,能够使用一个静止图像和一个包含语音的音轨生成逼真的人脸序列。 这篇论文所提出的语音驱动人脸合成体系结构如图 2 所示。该系统由时序生成器和多个鉴别器组成,每一个鉴别器都从不同的角度对生成的序列进行评估。生成器捕获自然序列的各个方面的能力与每个识别器根据它们辨别视频的能力成正比。 图 2:语音驱动面部合成的深层模型 时序生成器网络具有编解码器结构,可以从概念上划分为子网络,如图 3 所示。假设一个潜在的表征是由三个部分组成的,这三个部分包括说话人的身份、音频内容和自然的面部表情。这些组件由不同的模块生成,结合在一起形成一个嵌入,就可以通过解码网络转换成帧。 图 3:生成器网络结构 每个帧的潜在表征是通过连接标识、内容和噪声组件来构造的。帧解码器是一种 CNN,它使用步长转置卷积从潜在的表征生成视频帧。使用 U-Net 架构,在标识编码器和帧解码器之间进行残差连接,以保存主体的标识,如图 4 所示。 图 4:向生成器网络添加残差连接的影响。 而同步鉴别器给出原始视频和音频的固定长度片段 (误差 0.2s),并确定它们是否同步。鉴别器使用两种流架构来计算音频和视频的嵌入,通过计算两个嵌入点之间的欧几里德距离,并将其输入单层感知器进行分类。鉴别器的结构如图 5 所示。 图 5:同步鉴别器决定视听对是否同步。 它使用 2 个编码器来获取音频和视频的嵌入,并根据它们的欧几里德距离决定它们是否同步。 论文团队最后通过 PyTorch+GTX 1080 Ti 进行了实验,而实验的最终成果就像前文里视频中展示的那样,虽然不甚完美,但是已经相当成功了。 与 Speech2Vid 模型相比,这一方法在最终呈现效果上提升了不少: 从上图可以看出:Speech2Vid 模型虽然也做到了让人物开口讲话,但是除了嘴部动作几乎没有表情,而新方法的效果让人物的表情、动作更加自然,虽然会显得有些夸张,但是比起直勾勾瞪着人的表情已经进步了不少。
制作类似 Deepfake 的技术正在变得越来越容易,尽管像这样的研究还没有大规模商业化,但最初的 Deepfake 制造者很快就把他们的技术捆绑到易于使用的软件中,同样的情况也会发生在后来出现的这些新方法上。
类似的研究层出不穷,让人们担心它们可能被用于误导和宣传,这个问题甚至已经困扰到了一些国家的立法者。尽管有无数种方法整明技术是无害的,但它确实已经造成了真正的伤害,尤其是对女性而言。 而合成技术产生的“合成数据”也有着不小的 商业价值。合成数据可以减少对生成和捕获数据的依赖,可以做到比手工标记数据更便宜、更快速,还可以最大限度减少公司对第三方数据源的需求等等。 “技术是一把双刃剑”,这句话已经被无数次的提起。目前尚不知道本文提到的合成技术研究团队未来会将这项技术用在哪里,这项技术暂时也还没有开源,不论今后它的命运如何,只希望不再有更多无辜的人受到影响,相信各个国家也会加快对这类层出不穷的新技术的立法管理,技术无罪,但是掌握技术的人应该守好底线。 参考链接: https://www./2019/6/10/18659432/Deepfake-ai-fakes-tech-edit-video-by-typing-new-words 今日荐文点击下方图片即可阅读 谷歌股东大会变抗议大会,创始人缺席被骂“可耻” 2011 年至今,大数据概念火了八年,势头依然强盛。但即便如此,当抛出“工业大数据”的概念时,为何人们还是唏嘘不止,直道落地艰难?小编说:不基于真实工业场景的数据资源、没有系统的竞赛培训和专业的算法工具,开发者当然只能面对行业难题,望而却步。 |
|
来自: taotao_2016 > 《AI》