“ 静态人脸动起来,一张照片就能换脸! 关于蒙娜丽莎, 我们都很熟了。。 可是! 开口说话的蒙娜丽莎。。 你见过吗?! 这可不是在开玩笑, 真的有人把她给做出来了~ 眼睛、嘴巴和整个头部都在动! 喋喋不休的蒙娜丽莎, 看上去就是个话痨家庭主妇。。 ▼ 还有这个, 略显沮丧的蒙娜丽莎 ▼ 同样, 爱因斯坦。。也坐不住了! 有些不情愿的爱因斯坦 ▼ 还有聊嗨了的爱因斯坦! ▼ 再来看看这个, 这是一张女神梦露的照片: 她竟然开始说话了! 嘴角眉梢流露都是性感: ▼ 妥妥滴风情万种, 简直就是活了~ ▼ 剩下的名人头部动画例子还有很多,达利、陀思妥耶夫斯基、戴珍珠耳环的少女以及 Wu Tang Clan 的 RZA等等。。 它们有一个共同特点:只需要一张人像图片,无论是油画还是照片,都能立马动起来,照片变真人!四不四很神奇?! 原来,这些由一张图片生成的视频,是由三星莫斯科 AI 中心和 Skolkovo 科技研究所的研究人员用“深度伪造”(deep fake)技术赋予了生命! 研究人员称这种学习方式为 few-shot learning 。该技术最神奇之处是完全无需 3D 建模,仅需一张图片就能形成惟妙惟肖的动画。 简单来说,这套 AI 系统是将人物头部图片的面部特征和动作映射到一张照片上,使其栩栩如生。 研究人员使用 VoxCeleb2 视频数据集进行元训练(meta trainning)。具体来说,在元学习过程中,系统创建了三种神经网络: “让照片动起来”元学习架构 首先,嵌入式网络映射输入图像中的眼睛、鼻子、嘴巴大小等信息,并将其转换为向量; 其次,生成式网络通过绘制人像的面部地标(face landmarks)来复制人在视频中的面部表情; 第三,鉴别器网络将来自输入图像的嵌入向量粘贴到目标视频的 landmark 上,使输入图像能够模拟视频中的运动。 最后,评估“真实性得分”。该分数用于检查源图像与目标视频中的姿态的匹配程度。 凭借这三种网络,此系统就能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。 该模型将未见过的目标任务视为对抗学习问题,这样就能利用已学习的高质量生成器与判别器。 而且在把图片中的人物变活后,你想用什么表情控制它,就可以用什么表情控制它,甚至控制画风鬼畜一点的人像也不在话下~ 当然,你要是觉得一张图出来的效果有瑕疵,也可以用八张同一个人的照片,那这个效果就很鲜活了~ 以这个胡子小哥为例 : 然后让他参照驱动序列即另一个人说话的视频 就可以形成胡子小哥做出相同动作的视频! 这是更加生猛的十六张照片生成的效果~ 不得不承认,这样的生成效果,几乎看不出bug了。 一起来瞅瞅视频吧: 整个算法是在一个公共数据库上进行,这个数据库包含了从YouTube上收集的7000张名人照片。 不得不说,这种技术太具有颠覆性了——一张图像或画作就合成了人物开口说话状态的头部动画相信这个 AI 系统很快就会被广泛应用在视频、游戏、电视、电影等行业中。。 网友们对此的反应褒贬不一, 有人形容它就像在观看天网的未来, 有人担心: 这种难辨真假的 deepfake 技术的崛起, 有着巨大的被滥用的可能性。 蒙娜丽莎都给“复活”了, 那我们放在网络上的照片是也会被。。。 对此, 你是咋看的呢? 最炫的创意 · 最酷的设计 · 最黑的科技 |
|
来自: squareyang > 《科技界新闻》