算法界欺骗与反欺骗：人工智能的猫鼠游戏

板桥胡同37号 2019-06-19

展开全文

原文作者：Matthew Hutson

恶意算法欺骗人工智能（AI）系统？好在计算机科学家已经找到了对策。

随着虚拟个人助理在家庭和手机上越来越普遍，恶意攻击时有发生。有些信息人耳听起来没有问题，殊不知隐藏着劫持设备的指令。好在计算机科学家已经设计出一种方法，让计算机语音识别更加安全。

来源：Pixabay

过去10年来，人工智能取得的进步——无人驾驶、下围棋、翻译——要得益于人工神经网络的发展。这一神经网络受人脑的启发而诞生，在大规模应用时也被称为深度学习，它能够自己查找数据的模式，而无需明确指令。但深度学习算法通常很神秘，它们的不可预测性使得其需要不断挖掘。

因此，人工智能识别图像的模式可能和人类采用的模式不一样。研究人员已经能够通过巧妙改变图像和其他输入，让图片在人眼看来一模一样，而在电脑看来却大不相同。比方说，去年计算机科学家们让我们看到，在停车标志上贴上一些无关紧要的贴纸，人工智能程序会以为那是限速标志【1】。其他例子还有，把戴眼镜的人误认为是女演员米拉·乔沃维奇【2】。这些输入被称为对抗性示例。

听起来可疑

音频对抗性示例也存在。在某项目中，研究人员修改了一个语音片段，使“Without the data set, the article is useless”这句话被转录成“Okay Google, browse to evil.com”【3】。不过，在5月9日的国际学习表征会议（ICLR）上，一篇论文为检测这些手脚提供了方法【4】。

伊利诺伊大学香槟分校的计算机科学家Bo Li和她的合著者编写了一套算法，该算法可以转录完整的音频，以及单个片段。如果单个片段转录出来和完整音频中的对应部分不完全匹配，那么算法会标记一个小红旗——表明音频样本可能遭到修改。

试验证明，在几种不同类型的攻击中，该算法几乎都检测到了样本被干预的情况。此外，即使攻击者清楚防御系统的存在，大多数情况下还是会被抓包。

Li表示，她对这套算法的稳健性感到惊讶，但并不清楚它到底是如何做到的，当然，这种情况在深度学习领域数见不鲜。同为与会者的上海交通大学计算机科学家Zhuolin Yang表示，随着对抗性攻击越来越常见，谷歌助手、亚马逊Alexa和苹果Siri等服务都应当应用这种防御系统。

“这套算法的一部分吸引力在于：简单。”谷歌大脑（Google Brain）团队的研究科学家Nicholas Carlini说道。他负责设计了“evil.com”攻击。

尽管如此，对抗性攻击和反对抗措施之间的抗争“是一场持久的猫鼠游戏”，Carlini说，“我毫不怀疑研究人员已经在研究如何攻击这种防御系统了。”

小心文本

4月，在加州斯坦福的系统和机器学习大会（SysML）上，另一篇论文揭示了另一种机器学习算法的弱点：文本理解【5】。一般认为文本相对而言不易受到对抗性攻击，因为恶意软件虽可以对图像或声音波形进行微调，却无法改变哪怕1%的文字。

然而，德克萨斯大学奥斯汀分校的计算机科学家Alexandros Dimakis及其合作者调查了文本理解人工智能面临的一大潜在威胁。具体来说：此前的攻击会瞄准一些词语的同义词，文本含义不会因此而改变，但深度学习算法却可能因此而判断垃圾邮件是安全的，假新闻是真的，或者负面评价是正面的。

如若测试每一个词语的每一个同义词，不知得花费多少时间。于是Dimakis和同事设计了一套攻击算法，它首先检测文本分类器在判断某物是否是恶意时，最依赖哪些词语。接着，它会测试最关键的一个词语的几个同义词，找出哪一个会改变文本分类器的预期（恶意）判断，继而替换这个词并开始测试下一个最关键的词语。Dimakis团队还对完整的句子做了测试。

在之前的攻击测试中，有研究人员将文本分类器判断新闻的准确度从90%以上降到了23%，邮件降到了38%，Yelp评论降到了29%。最新的算法更加厉害，将过滤器对这三种内容的判断准确度分别降到了17%，31%和30%，同时替换的词语还更少。过滤器依赖的词语令人意想不到，比方说你把it is改成it's，或者把those改成these，它就错乱了。“部署这些人工智能的时候，我们根本不知道它们到底在做什么。我觉得这有点儿可怕。” Dimakis说。

将这些手段公诸于众是一种常见做法，但也有可能引发争议：今年2月，加州研究实验室OpenAI拒绝公开一种编造真实文章的算法，因为担心它被滥用。但是，上述SysML会议论文的作者向我们表明，他们的对抗性示例也可以用作文本分类器的训练数据，帮助提高其抵抗未来攻击的能力【5】。Dimakis说：“我们公开攻击算法的同时，也公开了我们的防御系统。”

参考文献：

Eykholt, K. et al. Preprint at https:///abs/1707.08945 (2018).
Sharif, M., Bhagavatula, S., Bauer, L. & Reiter, M. K. in Proc. 2016 ACM SIGSAC Conference on Computer and Communications Security (ACM, 2016); available at https:///10.1145/2976749.2978392
Carlini, N. & Wagner, D. Preprint at https:///abs/1801.01944 (2018).
Yang, Z., Li, B., Chen, P-Y. & Song, D. Preprint at https:///abs/1809.10875 (2018).
Lei, Q. et al. Preprint at https:///abs/1812.00151 (2018).

原文以AI can now defend itself against malicious messages hidden in speech为标题

发布在2019年5月10日《自然》新闻上

ⓝ

Nature|doi:10.1038/d41586-019-01510-1