原文作者:Matthew Hutson 恶意算法欺骗人工智能(AI)系统?好在计算机科学家已经找到了对策。 随着虚拟个人助理在家庭和手机上越来越普遍,恶意攻击时有发生。有些信息人耳听起来没有问题,殊不知隐藏着劫持设备的指令。好在计算机科学家已经设计出一种方法,让计算机语音识别更加安全。 来源:Pixabay 过去10年来,人工智能取得的进步——无人驾驶、下围棋、翻译——要得益于人工神经网络的发展。这一神经网络受人脑的启发而诞生,在大规模应用时也被称为深度学习,它能够自己查找数据的模式,而无需明确指令。但深度学习算法通常很神秘,它们的不可预测性使得其需要不断挖掘。 因此,人工智能识别图像的模式可能和人类采用的模式不一样。研究人员已经能够通过巧妙改变图像和其他输入,让图片在人眼看来一模一样,而在电脑看来却大不相同。比方说,去年计算机科学家们让我们看到,在停车标志上贴上一些无关紧要的贴纸,人工智能程序会以为那是限速标志【1】。其他例子还有,把戴眼镜的人误认为是女演员米拉·乔沃维奇【2】。这些输入被称为对抗性示例。 听起来可疑 音频对抗性示例也存在。在某项目中,研究人员修改了一个语音片段,使“Without the data set, the article is useless”这句话被转录成“Okay Google, browse to evil.com”【3】。不过,在5月9日的国际学习表征会议(ICLR)上,一篇论文为检测这些手脚提供了方法【4】。 伊利诺伊大学香槟分校的计算机科学家Bo Li和她的合著者编写了一套算法,该算法可以转录完整的音频,以及单个片段。如果单个片段转录出来和完整音频中的对应部分不完全匹配,那么算法会标记一个小红旗——表明音频样本可能遭到修改。 试验证明,在几种不同类型的攻击中,该算法几乎都检测到了样本被干预的情况。此外,即使攻击者清楚防御系统的存在,大多数情况下还是会被抓包。 Li表示,她对这套算法的稳健性感到惊讶,但并不清楚它到底是如何做到的,当然,这种情况在深度学习领域数见不鲜。同为与会者的上海交通大学计算机科学家Zhuolin Yang表示,随着对抗性攻击越来越常见,谷歌助手、亚马逊Alexa和苹果Siri等服务都应当应用这种防御系统。 “这套算法的一部分吸引力在于:简单。”谷歌大脑(Google Brain)团队的研究科学家Nicholas Carlini说道。他负责设计了“evil.com”攻击。 尽管如此,对抗性攻击和反对抗措施之间的抗争“是一场持久的猫鼠游戏”,Carlini说,“我毫不怀疑研究人员已经在研究如何攻击这种防御系统了。” 小心文本 4月,在加州斯坦福的系统和机器学习大会(SysML)上,另一篇论文揭示了另一种机器学习算法的弱点:文本理解【5】。一般认为文本相对而言不易受到对抗性攻击,因为恶意软件虽可以对图像或声音波形进行微调,却无法改变哪怕1%的文字。 然而,德克萨斯大学奥斯汀分校的计算机科学家Alexandros Dimakis及其合作者调查了文本理解人工智能面临的一大潜在威胁。具体来说:此前的攻击会瞄准一些词语的同义词,文本含义不会因此而改变,但深度学习算法却可能因此而判断垃圾邮件是安全的,假新闻是真的,或者负面评价是正面的。 如若测试每一个词语的每一个同义词,不知得花费多少时间。于是Dimakis和同事设计了一套攻击算法,它首先检测文本分类器在判断某物是否是恶意时,最依赖哪些词语。接着,它会测试最关键的一个词语的几个同义词,找出哪一个会改变文本分类器的预期(恶意)判断,继而替换这个词并开始测试下一个最关键的词语。Dimakis团队还对完整的句子做了测试。 在之前的攻击测试中,有研究人员将文本分类器判断新闻的准确度从90%以上降到了23%,邮件降到了38%,Yelp评论降到了29%。最新的算法更加厉害,将过滤器对这三种内容的判断准确度分别降到了17%,31%和30%,同时替换的词语还更少。过滤器依赖的词语令人意想不到,比方说你把it is改成it's,或者把those改成these,它就错乱了。“部署这些人工智能的时候,我们根本不知道它们到底在做什么。我觉得这有点儿可怕。” Dimakis说。 将这些手段公诸于众是一种常见做法,但也有可能引发争议:今年2月,加州研究实验室OpenAI拒绝公开一种编造真实文章的算法,因为担心它被滥用。但是,上述SysML会议论文的作者向我们表明,他们的对抗性示例也可以用作文本分类器的训练数据,帮助提高其抵抗未来攻击的能力【5】。Dimakis说:“我们公开攻击算法的同时,也公开了我们的防御系统。” 参考文献:
原文以AI can now defend itself against malicious messages hidden in speech为标题 发布在2019年5月10日《自然》新闻上 ⓝ Nature|doi:10.1038/d41586-019-01510-1 版权声明: |
|