分享

宅男的福音来了!人工智能新技术将还你一个“无码”的世界

 造就Talk 2020-07-21

像素化(俗称打马赛克)是大家早已司空见惯的“遮羞布”,用来掩盖图像中的隐私部分。

模糊不清的文字、人脸和牌照出现在新闻、被涂抹文件和网络中。

这项技术本身平淡无奇,但效果确实很好,人眼很难辨认经过处理的部分。

可问题在于,现在不止人类擅长识别图像。

计算机视觉变得愈发强大,它开始能够识别我们无法识别的东西。
 
德克萨斯大学奥斯汀分校和康奈尔科技园区的研究人员表示,一款软件经过他们的训练后,能看清图像中被隐藏的部分,使模糊化和像素化等常用的内容遮挡技术失去效果。

不管是照片中模糊的门牌号还是打了马赛克的人脸,一切都逃不过它的法眼。

研究人员甚至不必煞费苦心地开发新的图像去遮挡技术。

他们发现,主流的机器学习方法(用示例数据集“训练”电脑而不是编写程序)能够使自身具备展开这种攻击的能力。
 
“在这项研究中,我们采用了常规的图像识别技术。这可能令人感到不安。”维塔利·施玛蒂科夫(Vitaly Shmatikov)说,他是来自康奈尔科技园区的研究论文作者之一。

施玛蒂科夫指出,科学研究中使用的机器学习方法已经广为人知(就连网上都有了教程和训练手册),即使是技术知识粗浅的坏蛋也能展开这种攻击。

另外,更加强大的物体和面部识别技术已经出现,可能在战胜图像涂抹技术的道路上走得更远。

在以上四个数据集中,最左边是原图,接下来的四列依次呈现越来越高的像素化程度,最后三列展示了P3的三种遮挡程度。模糊程度越高,机器学习软件识别被掩盖图像的成功率就越低。但在研究人员的大多数测试中,机器学习软件识别模糊文字和人脸的准确率仍然超过50%。

研究人员已经能够打败三种隐私保护技术。

首先是YouTube的专属模糊工具,YouTube允许上传者对他们选中的物体或数字进行模糊化处理,但研究人员仍然可以识别视频中的模糊人脸。

其次是像素化。为了产生不同的像素化程度,研究人员使用了一项标准的打马赛克技术,他们说Photoshop和其他常见的图像处理软件也采用了这项技术。

最后是名为“隐私保护图片分享”(P3)的工具,该工具对JPEG图片中的身份识别数据进行加密,使人们无法看清整个图像,而对其他数据则不进行加密,使电脑仍然可以对图像进行处理,比如压缩。
 
为了破解马赛克,研究人员把四组庞大且著名的图像数据集输入人工神经网络进行分析,训练它们识别图像。

人工神经网络“见过”的文字、人脸和物体越多,就能越好地认出那些对象。

一旦人工神经网络识别训练集中相关物体的准确率达到或超过90%,研究人员便利用上述三种隐私工具使这些图像模糊不清,然后训练人工神经网络根据对原图的了解来辨认模糊和像素化的图像。
 
最后,研究人员使用了人工神经网络从未“见过”的模糊化测试图像,看看它们能否识别人脸、物体和手写数字。

对于某些数据集和遮挡技术,人工神经网络的识别成功率超过80%甚至90%。

对于被打马赛克的图像,像素化程度越高,识别成功率越低。

研究人员的去模糊化机器学习软件的识别成功率常常介于50%至75%之间。对于使用P3进行模糊化处理的名人脸部数据集,识别成功率最低,仅为17%。

研究人员认为,如果电脑在辨认人脸、形状和数字时完全靠瞎猜,那么每个测试集的识别成功率最多为10%,最低为0.2%。

换句话说,即使是相对较低的识别成功率也比瞎猜高得多。
 
加利福尼亚大学圣迭戈分校的机器学习研究员劳伦斯·索尔(Lawrence Saul)说,就算那些研究人员的机器学习方法并不总能战胜图像中的涂抹效果,但仍然是对像素化和模糊化等隐私工具的沉重打击。

“想要打败隐私工具,重建图像或文本字符串的成功率不必达到99.9%。”索尔说,“如果成功率达到40%或50%,就足以使那些隐私工具显得过时,应该被淘汰。”
 
值得指出的是,人工神经网络不是从头开始重建图像,所以并不能逆转模糊效果,真正地重现原画面。


人工神经网络只能按图索骥,未必是一张清晰的图片,也可能是它以前见过的东西,比如某个物体或者曾经识别的人脸。

例如,在时长数小时的火车站监控视频中,每位行人的脸都很模糊,人工神经网络无法识别每一个人。

但如果你怀疑某个人在特定时间点路过,该技术可以在人群中找出那个人的脸,哪怕视频很模糊。

索尔说,更大的挑战是在测试人工神经网络时,使用从更广泛的真实环境中收集的模糊图像,而不只是已有数据集中更加标准化的图像。

但根据目前的研究结果,索尔认为有可能在更实用的层面应用这种技术。

研究人员更大的目标是提醒隐私和安保群体,不要忽视机器学习作为识别和数据收集工具的进步。

索尔指出,有几种方法可以防范这类攻击,比如用黑色方块进行完全覆盖而不是使图像扭曲变形,从而避免留下被遮挡内容的痕迹。

更好的方法是随机裁剪一张人脸图像,用它覆盖目标人脸,然后再进行模糊化处理。

这样一来,即使模糊效果没有起到掩人耳目的作用,被覆盖的那个人也不会暴露身份。

“我希望这篇论文能达到这样的效果,即人们在发布隐私技术并声称其安全之前,必须先通过这类技术分析,”施玛蒂科夫说。

把视频中某人的脸彻底涂黑会令人感到尴尬,现在这种方法比打马赛克更少被使用。

但这可能很快将成为阻止计算机视觉看穿那些马赛克的必要措施,因为计算机视觉比人类的眼睛更加锐利。

翻译:于波

来源:Wired

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多