【原】合成视频以假乱真新高度！商汤科技、中科院、南洋理工大学联合提出当前最高清的语音驱动视频生成系统

我爱计算机视觉 2020-12-23

展开全文

昨天ArXiv新出一篇效果异常赞的语音驱动的人脸视频合成论文，出自商汤科技，视频效果异常好。给定一段15分钟的演讲视频，应用该技术，即可生成一段该人物新的演讲内容的视频。

该文作者信息：

作者来自商汤科技、中科院自动化所、南洋理工大学。文章标注为Linsen Song在商汤科技实习期间，在Wayne Wu等研究人员指导下完成的工作。

下图展示了该文技术目标：

该方法可以用任意视频的任意人的语音数据作为输入，且利用单网络可以驱动任意人物生成视频，实现多对多的语音驱动视频生成。生成效果上，表情自然真实，且运动幅度可以很大！

文末有视频演示，效果更惊艳！

作者最核心的idea是将待驱动的目标视频帧通过3D重建网络分解为表情、身份、姿态参数，然后从驱动语音中提取去除身份信息的表情参数，将此二者结合生成新的视频。

背景& 动机

Talking Face是利用说话人的语音合成最新对应的人脸视频的方法，其主要的应用背景包括虚拟主播，视频编辑等。最近，采用生成对抗网络的方法在Talking Face中应用广泛，但是其中仍然有许多挑战。例如说话人的角度问题以及使用某个人语音去驱动另一个人的脸。基于这些挑战我们提出人脸身份与姿态可控的Talking Face生成的方法。

方法

该文的方法主要包含两个部分，其一是3D人脸重建模块，其二是语音处理模块，其三是视频生成模块。算法总体的框架图如下：

在3D人脸重建模块上，通过一个单目RGB重建算法，可以将人脸的信息解耦成Expression，Geometry和Pose 三个互相垂直的分量，这些分量表示为3DMM人脸模型中的不同系数，为之后表情系数学习和重组做准备。

在语音处理模块上，人说话的语音主要包含说话的内容以及该说话人的身份，为了消除其中的说话人的身份而不至于影响其后对于人脸身份的控制，我们参考了语音识别中的fMLLR方法并将其进一步的改进成深度网络，同时也通过speech identification网络来监督网络以消除其中的身份信息。

该网络输出的ID-removed Audio Features最后通过简单的LSTM+FC网络映射到3D人脸模型的expression系数上。

在视频生成模块上，参考的人脸/所需要的目标身份以及姿态的人脸也作为输入并提取其中人脸的身份信息(Geometry)与姿态(Pose)信息，这些信息与从语音提取的expression信息一起用于渲染全新的人脸的3D点云，其中就包含与说话嘴型强相关的嘴部关键点的位置。

通过人脸的3D点云可以投影得到人脸嘴部的关键点的位置。我们将其形式化的表达为heatmap并将输入的参考的人脸的原来的嘴部遮起来一同输入一个inpainting网络来生成新的、符合输入语音说话内容的嘴。

其后，为了保证输出的视频的时间上的稳定性，又添加了消抖算法以消除视频中的人脸的抖动。

网络架构

Audio ID-Removing Network：

输入是语音的MFCC特征，网络包含LSTM+FC，输出的是消除语音身份的MFCC特征。

Audio-to-Expression Translation Network

输入的是输出的是消除语音身份的MFCC特征，网络的结构是LSTM+FC，输出是与语音内容对应的视频中的人脸的expression系数。

Neural Video Rendering Network

输入的是嘴部遮挡住的人脸的图片以及作为指导/目标嘴型的嘴部关键点的heatmap图，网络是Unet结构的生成网络，输出的是符合输入的指导/目标嘴型关键点的人脸图片。

实验结果

作者在GRID数据集和另外收集的数据集上进行了实验，官网放出如下效果视频（请务必全屏观看！）：

相信你已经发现该文算法生成的视频人物可以大范围运动，表情自然，相比其他算法更像真实视频！

（这种以假乱真的效果，简直太难以置信，以后演员也许真的只需要一张人脸照片就可以拍戏了。。。）

这是同一个人的语音驱动不同的三个人的视频的效果：

这是不同的人的语音驱动同一个人视频的效果：

在较大的姿态变化时，生成效果依然逼真，不出现“鬼畜”，如下图：

值得注意的是，该方法也可以直接用于基于语音的视频编辑，可以对当前视频中的语句进行删改和重组，仍然合成得到非常逼真的视频效果：

相比于其他state-of-the-art方法，该文方法在处理脸部细节、人物边缘、嘴形变化时更加逼真自然：

另外作者们还邀请了100名参与者对生成视频和真实视频进行真实度打分，结果如下：

评分4和5为真实和绝对真实，该文提出的方法平均获得55%的真实认定，而真实视频是70.6%，还有一定的差距，但已经难能可贵了！

总之，该文从任意人的语音中消除身份信息提取表情参数，再加入到视频合成网络的方法，使语音驱动的人脸视频合成达到了新高度！必将成为未来相关技术（虚拟主播，视频编辑）发展重要的里程碑！

论文地址：

https:///abs/2001.05201

项目地址：

https://wywu./projects/EBT/EBT.html

（目前暂未发现该文有开源代码）

One More Thing

作者在文中，特意给出了Ethical Consideration（伦理道德考虑）章节。文章表示该工作的目的旨在为电影制作，视频创作等产业更好的的发展做出前沿的探索。对于该技术存在的潜在滥用风险，例如对政客，明星视频的恶意篡改等，文章表示会积极和学界一起开发对应的篡改视频检测系统，一起防止技术的滥用。

值得注意的是，一周前，该研究组刚刚发布了一个目前最大量级的篡改视频检测数据集DeeperForensics-1.0：

https:///projects/DrF1/DrF1.html

人脸技术交流群