搜索

分享

QQ空间 QQ好友新浪微博微信

CVPR2021最佳论文：当GAN遇到3D场景，无需监督就学会“动态抠图”、360度展示对象

taotao_2016 2021-06-29

展开全文

月石一发自凹非寺

量子位报道 | 公众号 QbitAI

GAN又又又有新玩法了！

人脸？NO，NO，NO~

这回，开发者利用「3D+GAN」生成了汽车大片，还是能360度展示、随手换背景那种。

只需无监督训练，模型就可以产出几百万张新车硬照！

不只是车，还有人脸、猫咪、建筑、家具等等……（好家伙，利好设计师~）

无论是换背景、改外观，还是在场景中添加、平移、旋转对象，或者改变视角，都能搞定。

这项研究摘得CVPR2021最佳论文奖，现已开源，研究团队来自马普所和图宾根大学。

在此前的研究中，深度生成模型虽然可以合成高分辨率的图像，但生成过程的可控性不足。

而对变化因素的研究大多局限于2D空间，很少考虑场景的组成。

研究人员在GAN中加入了3D场景，新模型能够生成更可控、质量更高的图像，并且模型参数量更少。

那么3D与GAN是如何结合起来的？

GAN+3D：合成可控

研究人员将神经渲染管道与场景表示结合，把场景表示为合成的生成性神经特征场，就得到了一个真实、高效的图像合成模型——GIRAFFE。

具体而言，首先要为场景和对象采样单独的潜在编码，为正则空间提供特征字段。

将3D点和观察方向映射到密度值和特征向量的函数，即为特征场。

接下来，为每个对象采样一个视角，生成器将对象和背景合成到一个场景中。

将生成器生成的图像与真实图像输入判别器，再利用对抗性损失进行无监督训练。

虽然训练集使用了原始、未定位的图像，但在测试时，包括相机和物体的视角，以及物体的形状、外观，都能够得到控制。

最后，利用2D神经渲染网络，对相机视角、体积渲染场景的特征图像进行采样，将其转换为最终的具有3×3卷积的RGB渲染图像。

△神经渲染网络

与其他模型对比

研究人员将GIRAFFE与基于2D的GAN进行了比较。

平移单个对象时，二者的效果对比情况：（右图为新模型）

相比之下，新模型还能够实现更复杂的操作，比如循环移动、改变背景、添加对象等。

此外，研究人员还分别使用64×64和256×256像素的图像，对不同模型进行了对比。

在固定背景的情况下旋转对象，新模型的效果比其他模型更优：

在定量分析中，新模型在不同像素下的FID分数都更低，说明生成效果更好：

（FID分数是通过生成图像与真实图像的“距离值”，得到的评估分数，数值越小越好。）

并且，新模型的参数量也更少：（单位：百万）

泛化能力如何？

此外，模型还能在训练数据之外进行泛化。

比如增加水平和深度平移范围：

合成比训练时更多对象的场景：（训练集图像中仅一辆汽车）

开发者表示，这项技术可以应用在动画和游戏制作中。3D动画师们离解放又近了一步~

GIRAFFE已经在GitHub上开源，感兴趣的小伙伴可戳文末链接了解~

相关链接：
[1]https:///abs/2011.12100
[2]https://autonomousvision./giraffe/
[3]https://m-niemeyer./project-pages/giraffe/index.html
[4]https://m-niemeyer./slides/#/
[5]https://github.com/autonomousvision/giraffe

本文仅做学术分享，如有侵权，请联系删文。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： taotao_2016 > 《视觉》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

taotao_2016

关注对话

TA的最新馆藏

《统计开拓者》第八篇：安德烈·柯尔莫哥洛夫 - 概率论与统计学的大师
一般微分几何：等变流形
蒙克｜今天我们更需要维特根斯坦
对掐：维特根斯坦和图灵
物理中的张量计算（3）——对偶空间与张量
计算物理学

喜欢该文的人也喜欢更多

热门阅读换一换