分享

算法界欺骗与反欺骗:人工智能的猫鼠游戏

 板桥胡同37号 2019-06-19

原文作者:Matthew Hutson

恶意算法欺骗人工智能(AI)系统?好在计算机科学家已经找到了对策。

随着虚拟个人助理在家庭和手机上越来越普遍,恶意攻击时有发生。有些信息人耳听起来没有问题,殊不知隐藏着劫持设备的指令。好在计算机科学家已经设计出一种方法,让计算机语音识别更加安全。

来源:Pixabay

过去10年来,人工智能取得的进步——无人驾驶、下围棋、翻译——要得益于人工神经网络的发展。这一神经网络受人脑的启发而诞生,在大规模应用时也被称为深度学习,它能够自己查找数据的模式,而无需明确指令。但深度学习算法通常很神秘,它们的不可预测性使得其需要不断挖掘

因此,人工智能识别图像的模式可能和人类采用的模式不一样。研究人员已经能够通过巧妙改变图像和其他输入,让图片在人眼看来一模一样,而在电脑看来却大不相同。比方说,去年计算机科学家们让我们看到,在停车标志上贴上一些无关紧要的贴纸,人工智能程序会以为那是限速标志【1】。其他例子还有,把戴眼镜的人误认为是女演员米拉·乔沃维奇【2】。这些输入被称为对抗性示例。

听起来可疑

音频对抗性示例也存在。在某项目中,研究人员修改了一个语音片段,使“Without the data set, the article is useless”这句话被转录成“Okay Google, browse to evil.com”【3】。不过,在5月9日的国际学习表征会议(ICLR)上,一篇论文为检测这些手脚提供了方法【4】。

伊利诺伊大学香槟分校的计算机科学家Bo Li和她的合著者编写了一套算法,该算法可以转录完整的音频,以及单个片段。如果单个片段转录出来和完整音频中的对应部分不完全匹配,那么算法会标记一个小红旗——表明音频样本可能遭到修改。

试验证明,在几种不同类型的攻击中,该算法几乎都检测到了样本被干预的情况。此外,即使攻击者清楚防御系统的存在,大多数情况下还是会被抓包。

Li表示,她对这套算法的稳健性感到惊讶,但并不清楚它到底是如何做到的,当然,这种情况在深度学习领域数见不鲜。同为与会者的上海交通大学计算机科学家Zhuolin Yang表示,随着对抗性攻击越来越常见,谷歌助手、亚马逊Alexa和苹果Siri等服务都应当应用这种防御系统

 “这套算法的一部分吸引力在于:简单。”谷歌大脑(Google Brain)团队的研究科学家Nicholas Carlini说道。他负责设计了“evil.com”攻击。

尽管如此,对抗性攻击和反对抗措施之间的抗争“是一场持久的猫鼠游戏”Carlini说,“我毫不怀疑研究人员已经在研究如何攻击这种防御系统了。”

小心文本

4月,在加州斯坦福的系统和机器学习大会(SysML)上,另一篇论文揭示了另一种机器学习算法的弱点:文本理解【5】。一般认为文本相对而言不易受到对抗性攻击,因为恶意软件虽可以对图像或声音波形进行微调,却无法改变哪怕1%的文字。

然而,德克萨斯大学奥斯汀分校的计算机科学家Alexandros Dimakis及其合作者调查了文本理解人工智能面临的一大潜在威胁。具体来说:此前的攻击会瞄准一些词语的同义词,文本含义不会因此而改变,但深度学习算法却可能因此而判断垃圾邮件是安全的,假新闻是真的,或者负面评价是正面的。

如若测试每一个词语的每一个同义词,不知得花费多少时间。于是Dimakis和同事设计了一套攻击算法,它首先检测文本分类器在判断某物是否是恶意时,最依赖哪些词语。接着,它会测试最关键的一个词语的几个同义词,找出哪一个会改变文本分类器的预期(恶意)判断,继而替换这个词并开始测试下一个最关键的词语。Dimakis团队还对完整的句子做了测试。

在之前的攻击测试中,有研究人员将文本分类器判断新闻的准确度从90%以上降到了23%,邮件降到了38%,Yelp评论降到了29%。最新的算法更加厉害,将过滤器对这三种内容的判断准确度分别降到了17%,31%和30%,同时替换的词语还更少。过滤器依赖的词语令人意想不到,比方说你把it is改成it's,或者把those改成these,它就错乱了。“部署这些人工智能的时候,我们根本不知道它们到底在做什么。我觉得这有点儿可怕。” Dimakis说。

将这些手段公诸于众是一种常见做法,但也有可能引发争议:今年2月,加州研究实验室OpenAI拒绝公开一种编造真实文章的算法,因为担心它被滥用。但是,上述SysML会议论文的作者向我们表明,他们的对抗性示例也可以用作文本分类器的训练数据,帮助提高其抵抗未来攻击的能力【5】。Dimakis说:“我们公开攻击算法的同时,也公开了我们的防御系统。”

参考文献:

  1. Eykholt, K. et al. Preprint at https:///abs/1707.08945 (2018).

  2. Sharif, M., Bhagavatula, S., Bauer, L. & Reiter, M. K. in Proc. 2016 ACM SIGSAC Conference on Computer and Communications Security (ACM, 2016); available at https:///10.1145/2976749.2978392

  3. Carlini, N. & Wagner, D. Preprint at https:///abs/1801.01944 (2018).

  4. Yang, Z., Li, B., Chen, P-Y. & Song, D. Preprint at https:///abs/1809.10875 (2018).

  5. Lei, Q. et al. Preprint at https:///abs/1812.00151 (2018).

原文以AI can now defend itself against malicious messages hidden in speech为标题

发布在2019年5月10日《自然》新闻上


Nature|doi:10.1038/d41586-019-01510-1

版权声明:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多