搜索

分享

QQ空间 QQ好友新浪微博微信

1080Ti 就搞定最新 SOTA 模型？一个普通研究生勇敢发毕业论文引起热议

黄爸爸好 2021-06-10

展开全文

转自 | 新智元
来源 | Reddit
编辑 | 好困

除了在顶会或者期刊上发表过的，一般人基本都会把自己的毕业论文「雪藏」起来。然而，有这么一位研究生不仅把自己的论文发了出来，还表示自己用1080Ti训练的比SOTA模型更厉害。

大厂用成千上万张显卡训练的SOTA模型已经看腻了？这次我们来看看「小作坊」训练的模型如何。

慕尼黑大学的研究生做了一个Deep Fake模型，只用了300万个参数和一个1080Ti，搞定！堪比SOTA！

虽然作者是这么说的，但是从他发布的成果上来看，有些一言难尽。

左边是原本的视频，右边是提供声音的素材，中间是生成的Deep Fake视频

由于样本只提供音频素材，所以声音还是样本的声音，听起来违和感简直要溢出屏幕了。好在不会出现像其他一些视频那样把整张脸贴上去那么搞笑。

网友用FakeAPP生成的视频

作者表示，和一些SOTA模型相比，论文的方法除了具有较低的嘴唇同步误差，同时在图像质量方面要优于所有方法。

从左到右依次是：原视频，文章的方法, Neural Voice Puppetry，Wav2Lip和Wav2Lip GAN

全连接网络就够了

模型基于3D可变形人脸模型 (3DMM)，并具有 3D 面部的位置编码和从英语语音中提取的音频特征。

对于给定的语音，模型可以预测中性空间的RGB颜色和3D顶点位移。音频特征向量过滤的时间稳定性可以提供平滑的唇音同步。

文章表示，模型可以接受任意音频输入，并生成逼真的面部图像。

模型首先提取梅尔频率倒谱系数（MFCC）特征，音频的嵌入由Wav2Lip编码器生成。

然后，变形（deformation）网络输出人物面部形状的网格，且不受3DMM的限制，并在之后利用恒等函数对3D形状进行优化。

最后，由音频驱动的图像由颜色（color）网络输出。

为了将输出图像嵌入到背景中，需要单独训练另一个基于背景和先前输出的合成网络。

模型每个部分的输出，从左至右：变形网络、颜色网络、合成网络

再来一个例子，从左至右依次是：原始的视频，渲染后的视频，仅用于获取音源的视频。

网友表示：你这个不行啊

对于项目本身，评价基本是负面的。

「那么，这与在奥巴马的静音视频上播放音频的结果有什么不同呢？」

「奥巴马的嘴唇似乎并没有遵循着说话的轨迹」

不仅如此，对于Deep Fake这类的研究，网友普遍对其伦理道德方面表示担忧。

「有时我想到这些技术是如何被滥用的，这让我对未来感到有点难过」

「它不仅会陷害无辜者，也会为有罪者提供合理的推诿」

「所以你决定既要改进deep-fake，又要使用凯文-史派西（有道德污点）。你基本上是每个人工智能伦理学家最糟糕的噩梦。」

这件事从另一个方面告诉我们，不要把自己的毕业论文发出来，难道来自导师的嘲讽还不够么😂

论文地址：

https://www./s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0

参考资料：

https://zielon./face-neural-rendering/

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：黄爸爸好 > 《图像》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

黄爸爸好

关注对话

TA的最新馆藏

价格战，并不是大模型厂商的初衷
[转] 如何在本地运行 Llama 3 8B 和 Llama 3 70B及硬件配置推荐
TPAMI 录用 | 最高3倍无损训练加速：清华提出视觉基础网络EfficientTrain
让桌面程序自动更新变得简单：AutoUpdater.NET的魅力
RocketMQ 是什么？它的架构是怎么样的？和 Kafka 又有什么区别？
.NET Aspire 正式发布：简化 .NET 云原生开发

喜欢该文的人也喜欢更多

热门阅读换一换