在深度学习技术的加持下,每一张平面图像都能转换为效果惊艳的3D图像?我突然有一个大胆的想法…… 相比于 2D 内容,能产生身临其境感的 3D 内容仿佛总是会更吸引人。自从 3D 电影诞生以来,人们从未停止过立体影像的追求。随着近年来 5G 技术的落地,VR 行业也将迎来新的突破,众多游戏玩家和电影观赏者也会因此获得更加新奇的视觉体验。但 VR 场景里 3D 内容的缺乏一直是行业内的一个痛点。以 3D 电影制作为例,在现阶段,每一部 3D 电影的后期制作都需要投入巨大的资金和人力成本,这些现实条件严重阻碍了 3D 内容的丰富发展。最近,来自爱奇艺的团队介绍了一种 3D 内容转换的 AI 模型,可通过深度学习技术将 2D 内容快速、批量、全自动地转制成 3D 内容。在减少 3D 内容制作成本的同时,为用户提供更多高质量的立体化影像。想要把 2D 内容转换为「真假难辨」的 3D 内容,前提是要了解真实人眼的 3D 感知:「为什么在人眼中,世界是立体的?」对于 3D 介质来说,越是符合真实世界中人眼的 3D 感知,就会越受到用户的喜爱。因此在模型构建上必须符合真实世界的 3D 观感——双目视觉。如图 1 左所示,两个相机拍摄同一场景生成的图像会存在差异,这种差异叫「视差」。视差不能通过平移消除,一个物体离相机越近,视差偏移就越大,反之则越小。人的左右眼就如同图中的左右相机。在双眼分别获取对应图像后,通过大脑合成处理这种差异,从而获取真实世界的 3D 感知,视差与相机焦距和轴间距间的关系如通过图 1 右所示:以上为公式(1),其中 z 为物体距离相机的深度,x 为三维映射到二维的图像平面,f 为相机焦距,b 为两个相机间的距离轴间距,x_l 和 x_r 分别为物体在左右不同相机中成像的坐标,因此可知左右图对应像素 x_l 和 x_r 的视差。同时,考虑到转制的对象为 2D 介质,因此,通过单目深度估计合成新视点的算法原型诞生:通过公式 (1) 可知,假设有一个函数通过公式(2)可知,只需要将 图 1 左 作为训练输入,图 1 右 作为参考,即可建立深度学习模型,通过大量双目图片对训练估计出函数𝐹。这样就可在已知相机参数 (𝑏,𝑓) 的前提下获取对应的深度值𝑧,完成单目深度估计的任务。通过公式(1)与公式(2)可以发现,深度与视差成反比,因此深度估计和视差估计的方法可以互用。在项目实践过程中,团队尝试了非常多的关于新视角生成的方案,包括经典的 Deep3D、基于生成网络、基于中间视差图等视角生成方案等等,最终确定了更便于引入 3D 电影数据的 Monodetph 无监督训练作为我们的 baseline 方案。在项目实践过程中,团队对比考虑了以下几种 3D 视觉生成方案,但每一种方法都会存在自身的缺陷:Junyuan Xie 等人提出的 Deep3D 虽然通过视差概率估计实现 2D 到 3D 介质的转换,但固定视差的设定,难以适应不同分辨率 2D 介质输入; Ravi Garg 等人 2016 年提出的方法没有充分利用双目信息作指导,景深不够细; Clement Godard 等人提出的 monodepth 在 Ravi Garg 等人的方法基础上,充分利用了双目信息进行对抗指导,学习到更多深度细节; Tinghui Zhou 等人提出的 SfmLearner 方法引入帧间时序信息,结构较复杂,运行速度慢。 基于实现及适用性考虑,研究者最终确定了更便于引入 3D 电影数据的 Monodepth 为 Baseline,其框架结构如图 2 所示:通过 图 2 框架可以看出,该框架在训练过程充分利用双目的有效信息作指导,同时测试过程也只需要单目图片进行输入,所以非常适合用于 2D 转 3D 技术的框架。但在研发过程中,仍然存在一系列非常影响最终效果的问题,比如不同相机参数的模型预测、帧间抖动、物体边缘,以及背景存在模糊流动区域、物体空洞等,都是非常大的技术难题。爱奇艺团队也分享了他们在技术落地应用过程中,工程难题的解决方案:在 Baseline 模型的基础上,如果直接使用混合的 3D 电影数据集进行训练,模型将无法收敛或预测不稳定,一个最主要的问题是不同电影使用不同相机参数的摄像机进行拍摄,即使两个非常相似的电影场景,在不同的两部电影中也会有不同的景深分布,表现在模型训练中即为不同的视差值。与此同时,不同电影的后处理方式,以及会聚相机的引入,会进一步增加建模的难度。在分析相似案例的处理方法中,研究者发现可以通过引入条件变分自编码器(CVAE),在训练过程中把每一组训练集(左右视图)通过网络提取其相机参数等信息,并作为后验信息通过 AdaIN 的形式引入到单目(左视图)视差图预测中,同时参考《Toward Multimodal Image-to-Image Translation》中的「双轮训练」,保证了测试时随机采样相机参数分布的正确性。在解决数据集问题后,进行连续帧预测时,研究者发现存在预测不稳定及抖动的问题。目前,在解决视频生成过程(尤其是连续帧深度图预测)抖动问题的方案中,最为常见的方案包含基于帧间 ConvLSTM 的 [7] 和 [8] 和基于光流的 [9] 和 [10]。其中,[8] 在不同尺度的编码和解码的过程中均加入 ConvLSTM,隐式的利用时间域上特征的相关性来稳定的预测深度图,而 [7] 则仅在网络输出的最后一层引入 ConvLSTM。引入 ConvLSTM 的方法虽然思路简单,但在 2D 转 3D 模型中却不适用,[8] 使用了较多的 ConvLSTM,使得训练较为复杂,不易收敛,[7] 由于电影分镜镜头种类多变,单一 ConvLSTM 预测时易累计误差,使得预测变差。研究者提出的 2D 转 3D 模型采用了类似于 [10] 的模型结构,如图 3 所示,将左侧上支路改为输入三帧左视图(t,t-1,t-2),左侧下支路改为输入前两帧预测视差图(t-1,t-2),右上支路为输出当前帧所预测的视差图,右下支路改为输出前一帧预测视差图到当前帧预测视差图的光流图(t-1→t)及其 valid mask 图,最终结合右侧上下两支路结果合成当前帧视差图。其中,在中间高维特征合并处引入上文提及的 CVAE 模块,用以引入后验相机参数信息。最终,在解决相机参数导致数据集问题的同时,模型能够得到稳定且连续的视差图输出。新视角的生成会使部分原本被遮挡的区域在新视角中显露出来,这些信息仅从左视图中是无法获取的,即使通过前后帧的光流信息也很难还原,因此会形成一些空洞。图源:CVPR 2020 论文《3D Photography using Context-aware Layered Depth Inpainting》,地址:https:///pdf/2004.04727.pdf。在生成新视角的后处理过程中,研究人员参考了 ICCV 2019 的一篇图像修复论文中提到的模型框架设计,通过视差图来指导获取产生的「空洞」区域,通过图像修补技术解决新视角的「空洞」问题。3D 效果测评由于拍摄条件不同会导致 3D 效果不同,所以在 2D 转 3D 效果测评中,研究者用大量人力对预测的视差图和成片在 VR 中的 3D 效果进行综合性的评测。视差图估计如图 4:上文所展示的 3D 海报就是这一技术的直接应用场景,比如下图这一张就是在 2D 海报的基础上加上其深度关系图,通过一系列的新视点渲染,即可得到一组动态的、人能感知的立体影像。此外,模型效果的评测也是难点之一。评价 3D 效果的呈现好与坏,很多时候是一个主观问题。在模型多次迭代的过程中,模型转制后影片收到效果评价并不统一,所以很难去衡量模型迭代该朝着哪个方向走。最终,经过长时间的探索以及与其他部门的磨合,团队从零搭建了一套详细且较为科学的 3D 影片效果评价体系,从更统计、科学的角度来评价模型效果,这在后期模型优化的过程起到了非常重要的指导作用。目前,利用该技术转制的 3D 海报内容已经在部分用户的爱奇艺 APP 端进行灰度测试,随后将在各终端的 APP 中呈现。除了 3D 海报的展示形式之外,爱奇艺 VR 频道也已经上线了《四海鲸骑》、《灵域》、《万古仙穹》等多部转制 3D 剧集。未来该模型也会应用在更多的内容上,让用户获得更好的观影体验。[1]Xie J, Girshick R, Farhadi A. Deep3d: Fully automatic 2d-to-3d video conversionwith deep convolutional neural networks[C]//European Conference on ComputerVision. Springer, Cham, 2016: 842-857.[2]Garg R, BG V K, Carneiro G, et al. Unsupervised cnn for single view depthestimation: Geometry to the rescue[C]//European Conference on Computer Vision.Springer, Cham, 2016: 740-756.[3] Godard C, Mac Aodha O, Brostow G J. Unsupervisedmonocular depth estimation with left-right consistency[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 270-279.[4] Zhou T, Brown M, Snavely N, et al. Unsupervised learningof depth and ego-motion from video[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2017: 1851-1858.[5] Huang X, Belongie S. Arbitrary style transfer inreal-time with adaptive instance normalization[C]//Proceedings of the IEEEInternational Conference on Computer Vision. 2017: 1501-1510.[6] Zhu J Y, Zhang R, Pathak D, et al. Toward multimodal image-to-imagetranslation[C]//Advances in neural information processing systems. 2017:465-476.[7] Zhang H, Shen C, Li Y, et al. Exploitingtemporal consistency for real-time video depth estimation[C]//Proceedings ofthe IEEE International Conference on Computer Vision. 2019: 1725-1734.[8] Tananaev D, Zhou H, Ummenhofer B, et al. TemporallyConsistent Depth Estimation in Videos with RecurrentArchitectures[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 0-0.[9] Lin J, Gan C, Han S. Tsm: Temporal shift module forefficient video understanding[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 7083-7093.[10] Wang T C, Liu M Y, Zhu J Y, et al. Video-to-videosynthesis[J]. arXiv preprint arXiv:1808.06601, 2018.[11]Yu J, Lin Z, Yang J, et al. Free-form imageinpainting with gated convolution[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 4471-4480.参考链接:https://mp.weixin.qq.com/s/CpK0b5buUvG_HqF3mGzUyg
|