AI人工智能技术现在能生成带视频的假新闻了

许兴华数学 2017-07-04

展开全文

今年早些时候某著名视频网站上有人放出了一段看上去像是法国著名音乐人弗朗索瓦丝·哈蒂Fran?oise Hardy的视频。在这个视频中她被画面外的人问了个问题是关于为什么川普要指使白宫发言人肖恩·斯宾塞让他在总统就职典礼的观礼人数问题上撒谎。一开始哈蒂还争辩了几句接下来她表示斯宾塞先生“提出了另外一种事实”。

整个视频有点奇怪不仅仅是因为这位弗朗索瓦丝·哈蒂看上去只有20岁左右她本应该73岁了还因为视频中她的嗓音实际属于特朗普的顾问凯莉安·康威Kellyanne Conway。

这段名为《另一张面孔 v1.1》的视频是德国艺术家马里奥·克林格曼搞出来的一个艺术作品。在这个作品中哈蒂的数字化幻象口中说出的是康威回答NBC记者提问的话语。整个视频模模糊糊摇摆不定任何一个正常的视觉特效工作室都能做的比这个好得多。

但克林格曼并不是拿什么编辑软件自己瞎搞出这段视频的。相反他在自己家的电脑上使用了一种叫生成式对抗网络generative adversarial networkGAN的机器学习算法并“喂”了大量哈蒂年轻时期的MTV视频给这个程序让电脑花了几天时间自动弄出了这么一个东西出来。

克林格曼本人非常热衷于使用机器学习调教出一堆软件来帮他做这种“创意生产”。虽然他现在弄出来的作品多多少少有点……扭曲比如这样

或者这样

克林格曼的实验预示着真实与谎言的永恒战斗又开辟了一块新的战场。因为所谓“假新闻”的散播在某些领域里白字黑字已经不足为凭了但照片和录音还是保持着它们固有的可靠性。然而现在以GAN为代表的机器学习技术正在不断动摇着这个可靠性。

音频很容易伪造。通常情况下计算机将许多预先录好的短小语音片段连接起来生成一句完整的语音。包括Siri在内的各种虚拟语音助手都是这么做的。但是这样生成的数码语音其合成质量受到预先存储的语音片段的限制只有说特定的句子时才会显得非常逼真。

生成式语音的机制则颇为不同。使用神经网络学习源语音中的统计特征并在给定的任意内容上重构这些特征这种对语音的模拟不再是以秒为单位而是以毫秒级的速度进行模拟。比如你想要让特朗普或者任何一个公众人物说什么话你先拿大量此人的语音信息输入到一个深度学习算法中进行训练最后只要告诉这个已经训练完的程序你想让这个人说什么即可。

去年至今Google 在英国的 DeepMind百度在硅谷的深度学习研究院以及蒙特利尔学习算法研究所MILA等各种机构都发布了拟真度超高的文本生成语音算法。目前这些算法所需要的计算机运算能力只有大型技术企业能拥有但这种情况并不会持续太久。

生成图像则难得多。“生成式对抗网络”的机器学习方式是在2014年由伊恩·古德费洛Ian Goodfellow提出的当时他是在深度学习之父约书亚·本吉奥Yoshua Bengio手下读博的学生。古德费洛发现虽然深度学习能让机器很好地辨别各种类型的数据例如区分一张猫照片和一张狗照片但让软件按照这个去生成猫或者狗的照片则根本一塌糊涂。对电脑来说就算从数据库里学习了大量的训练图片要生成一张有意义的照片也是困难重重

于是古德费洛采用了另外一个类似的概念博弈。他不再尝试让计算机一蹴而就直接生成什么有用的东西而是用另一个agent[3] ——一个对抗者——对[4] 生成器的输出进行评判按照和训练数据集[5] 中已有的真实照片的相似度给出具体的评分[6] 来自数据集还是来自生成器的判断。生成器[7] 根据辨别器[8] 的反馈不断进行修正逐步生成越来越像真实的图像。

如今GAN算法可以从一句描述指令生成出邮票大小的鸟类图片。告诉算法“这鸟是白色的头和翅膀上有一些黑色鸟嘴长是橘色的”机器就会生成对应的图片。虽然输出的图片现在还不能算很完美但粗看起来还是非常逼真的。

虽然邮票大小的鸟类图片还并不足以公众对日常照片的真实性产生恐慌但技术发展的速度是常人难以想象的。在过去的5年里类似的深度学习算法在给照片进行分类时的错误率已经从25%下降到只有几个百分点。图像生成的算法预计也会经历类似的过程。

古德费洛现在就职于 Google BrainGoogle 内部的人工智能研究部门。他预测在三年内可能就会出现几乎可以以假乱真的AI生成视频。也许其他专家预期的时间会比他的长但业内基本认为这只是一个时间问题。“我们认为人工智能将永远改变我们对于哪些证据是可以信任的看法”古德费洛表示。

虽然科技驱动了新型的伪造技术科技也同样提供了破解伪装的办法。一种核实的办法是要求所有记录数据都应包括生成时的元数据包括了录制的时间、地点和录制设备等。这类数据使人们得以区分出一张虚假的照片例如照片上的内容和拍摄现场的时间不符等等。

另一个独特的例子来自英伟达Nvidia——它生产的芯片是许多人工智能设备的核心。在2014年英伟达利用自己的芯片来分析阿波罗11号在登月时拍摄的照片。在模拟了整个场景的光线反射情况之后英伟达的研究人员证明了巴兹·奥尔德林Buzz Aldrin太空服上那些奇怪的亮点确实是在月球上反射了阳光形成的——而不是像某些蠢蛋认为的是什么好莱坞电影摄影棚里留下的作假证据。

国际特赦组织已经在采用类似的做法了。他们的“证据实验室”需要核实一些声称可作为证据的视频和照片因此他们使用 Google 地球之类的软件来检查照片或视频拍摄地点附近的自然环境背景看是不是和证据中声称的一致他们还是用 Wolfram Alpha 之类的搜索引擎多方查询记录上的天气情况与证据中显示的进行对比。他们现在已经能区分出把老视频重新包装自称是新的证据的行为但他们也将面对由程序生成的伪造视频。密码学也能成为对抗伪造的有力武器可以通过确认文件的特殊数字签名来判断文件是否是来自于可信任的机构或是否来自最初生成视频的设备。

有些人早已明白媒体文件作为证据的脆弱性。“尽管对照片真实性的推测能赋予照片以可靠性但拿着设备的人的个人喜好、有没有受到诱惑等情况呢摄影师的工作和其他阴暗的商业活动没什么不同它往往也是在真相和艺术之间徘徊。”苏珊·桑塔格在她的《论摄影》中就这样写道。人工智能生成媒体文件这种做法则在这方面走得更远——反正你们之后也要按自己的意思改的不如直接跳过要在真实世界里扛着镜头或录音笔的这些“无聊”行为吧!

【来源】算法与数学之美。