人工智能在安全领域的应用

sdzc119 2017-12-08

展开全文

摘要

人工智能（Artificial Intelligence）意为计算机像人一样拥有智能能力，是一个融合计算机科学、统计学、脑神经学等多领域知识的前沿综合学科，可以代替人类实现识别、认知、分析和决策等多种功能，是近年来计算机领域发展的前沿方向。深度学习技术则是实现人工智能的重要手段之一，其利用深度的神经网络，使模型对数据的理解更加深入，已在多个领域实现了重要突破。本文将通过讲解具体的应用实例，详细介绍深度学习技术在安全领域中的发展历程、技术细节与发展现状。

人工智能技术介绍

人工智能技术的爆发

AlexNet结构示意图

2006年，著名的学者Geoffrey Hinton在Science上发表论文，给出了训练深层网络的新思路。大致想法为先分层进行预训练，然后把预训练的结果作为模型参数的初始值，再从头进行正常的训练。在2012年，他与他的学生提出了第一个日后被大规模使用的卷积神经网络： AlexNet。

ImageNet2012竞赛成绩

同样在2012年，Hinton课题组为了证明深度学习的潜力，首次参加ImageNet图像识别比赛。其通过构建的CNN网络AlexNet一举夺得冠军，且大幅超过第二名的传统SVM方法的分类性能。也正是由于该比赛，CNN吸引到了众多研究者的注意，自此之后，深度学习技术在众多领域表现出众，引发了新的人工智能浪潮。

深度学习的优势

传统的机器学习方法中需要依靠手工选取特征，而这十分依赖专业知识、领域经验和反复尝试，需要耗费大量的时间及精力。使用深度学习则可以省去特征工程这一繁杂的过程，其通过特征学习和分层算法自动提取特征，替代了特征的手工获取。随着自身理论算法的飞速发展，深度学习越来越受到重视，再加上硬件的不断升级优化，如GPU的并行处理改进，以及互联网时代海量数据的产生，训练复杂网络成为了可能。

深度学习的细节

深度学习一般利用卷积神经网络，自动的对于一张图片学习出最优的卷积核以及组合方式。对于一张图片的任务来说，即为求出最好的图片对于该任务的特征表达，然后来进行判断。举例来说，如上图所示，用灰色的矩形在原始图片的不同位置进行遮挡，然后将遮挡后的图片输入网络，得到此时被正确分类的置信度（蓝色为低置信度，红色为高置信度），可以看到，当狗的脸部以及汽车轮胎被遮挡时，分类的准确性会有极大的下降。

人工智能在安全领域的应用

基于深度学习的钓鱼URL检测

网络钓鱼是一项社会工程学技术，通过尝试伪装成电子通信中的可信任实体获取用户的敏感信息，如用户名、密码和信用卡详细信息等。网络钓鱼通常诱导用户在URL以及外观和感觉非常类似于合法网站的假网站输入详细信息，从而达到非法目的。

在2017年APWG eCrime峰会上，Easy Solutions公司首次公开提出利用递归神经网络模型来检测钓鱼URL。对于一个待分析的URL，该方法利用One-Hot向量编码、分词序列等技术解析URL，并利用递归神经网络完成了钓鱼URL的识别任务。由于URL字符串是一种序列数据，存在一定上下文的相互关系，因而递归神经网络是一个很好的解决方案。

密码破解

密码是应用最为广泛的身份认证方法，尽管存在一定的安全性和可用性缺陷，但由于密码具有简单易用、成本低廉、容易更改等特性，其仍是最主要的认证方法。常见的的密码破解方法有暴力破解、字典破解、社工攻击等方法，但现有的密码猜测技术大多计算密集且执行时间过长，不适用于实时验证和评估密码强度。因此，在2016年的Usenix安全会议上，有人提出基于深度学习的密码猜测技术。

该技术以文本作为输入，利用深度学习模型，以“开始位”为起点，“结束位”为终止，每次选择下一个位置概率最大的字符。

迁移学习提升效果

同时这一密码猜测技术也使用了迁移学习（transference learning），具体做法为将已训练好的模型参数迁移到新的模型来帮助新模型训练数据集。主要原因是部分非传统的密码策略的训练数据很少，而使用迁移学习，可以训练一个既满足全训练集也满足当前所需密码策略的模型。

基于深度学习的密码猜测技术在生成新序列的问题上性能表现优秀，具体优势如下：

1.神经网络生成的密码序列是非精确的、新颖的，适用于密码猜测

2.神经网络建模使用的存储空间较小

3.神经网络模型具有可迁移性，对于稀疏的样本集可组成新的策略

智能加密算法

Google Brain团队利用对称密码模型，通过深度学习进行自学习加密的研究。Alice负责明文加密，Bob负责解码，而Eve负责破解加密的信息，整体模型通过对抗学习的思想，在未设置具体的密码算法的条件下，通过设定三者的损失函数，使整个通信加密过程不断演进，经过15万次模拟后，Alice和Bob最终实现安全通信，而Eve未能获取明文信息。不过专家认为目前智能算法的攻击能力距离人类专家尚具有很大差距，仍有大幅度提升的潜力。

基于深度学习的恶意代码检测

恶意代码是指故意编制或设置的、对网络或系统会产生威胁或潜在威胁的计算机代码，

最常见的有计算机病毒、木马、计算机蠕虫、后门、逻辑炸弹等。恶意代码每年给政府机构、企业和普通计算机用户带来了巨大损失，而如果不通过自动化的手段，将来物联网连接设备数爆发的时候，只依赖人来分析大量的信息安全隐患是不可能的——一个信息安全分析师每天最多能看一两千条 log 数据，或者一两百个代码片，而对人工智能来说，几百万条数据只需花费几分钟时间。

恶意代码的自动分析首先要解决的是输入格式的问题，代码图像化是一种受到广泛关注的方法。这一概念在2011年被提出，即为把一个二进制文件以灰度图的形式展现出来，利用图像中的纹理特征对恶意代码进行聚类。此后，有许多研究人员在这个思路基础上进行了改进和探索。恶意代码图像的形式并不固定，研究人员可根据实际情况进行调整和创新。

最简单的一种恶意代码图像绘制方法如下：对一个二进制文件，每个字节范围在00~FF之间，刚好对应灰度图0~255，将一个二进制文件转换为一个矩阵，矩阵元素对应文件中的每一个字节，该矩阵可以非常方便的转换为一张灰度图。

通过恶意代码到图像的转化，恶意代码分析问题就转化为了图像识别问题，从而将深度学习方法引入到了恶意代码分析问题中。

在现实安全领域的应用

生物识别

生物识别包括人脸识别、虹膜识别、步态识别等方向，当前阶段已经有了许多具体应用落地，如支付宝称已完成“刷脸支付”从实验室到商用的最后一步，不久就会在合作门店上线，而在今年2月，《MIT科技评论》也将刷脸支付列入2017全球十大突破性技术。现阶段，刷脸支付的落地还存在一定政策、技术上的问题，但人脸验证登陆、重要场所身份查验等等领域已经开始变为现实。

智能安防

在“平安城市”，“智慧城市”等项目带动下，我国的安防行业持续保持了快速增长，2015年安防行业总产值达到4860亿元。现有城市信息基础设施建设完备，但未获充分利用，高效精准的智能视频分析是关键。发现、定位和跟踪敏感人(群)、车、物是保障公共安全的重要基础。然而目前的城市安防大多还是通过人力进行排查，如周克华抢劫案中警方用了48万小时来浏览各类监控视频，长春盗车杀婴案中1000名警察花了四十个小时在监控视频中寻找嫌疑人。

而通过人脸识别、属性分类、目标检测、智能检索等功能，现阶段已经能够初步实现对特定目标的自动化智能检测、智能跟踪、智能排查功能，已在多地公安机关实际部署应用。

在信息安全领域的应用

金融授信

传统金融风控往往是基于评分卡体系，对强征信数据如银行借贷记录等进行建模，而新金融的业务下，“金融+互联网”的发展使得金融业务覆盖更多收入群体，新增群体的强征信数据往往大量缺失，金融机构不得不使用更多弱金融数据，如消费数据、运营商数据、互联网行为数据等进行分析。底层数据的改变，对传统信用评分造成了巨大的困难。

面对数据繁杂的问题，基于深度学习的特征生成框架已被成熟运用于大型风控场景中，对诸如时序、文本、影像等互联网行为、运营商非结构化数据实现了深层特征加工提取，显现出对模型效果超出想象的提升。一些公司已开展小额贷款秒批业务。依靠大数据和人工智能为基础的技术，风控部门为有信贷需求的群体绘制用户画像，建立信用体系，加上图像识别等人工智能技术的实际应用，构成了秒批的技术基础。

舆情分析

利用自然语言处理、图像解析、信息检索等技术，对网络媒介、社交平台、自媒体等多信息源进行数据收集与处理，可以实现智能化的舆情分析，便于及时采取应对措施。如在2017年8月的求职少年李文星之死事件中，通过舆情分析，即可得到当前网络社交媒体中的热搜关键词与网民的关注重点。

人工智能在安全领域的应用

需要大量充分的数据

深度学习技术自动提取特征的特点虽然给我们带来方便，但是也带来了很大的问题。深度学习需要大量的数据，这些数据必须是完整的、确定性的，正是通过这样大量的完整数据，模型才有可能在不经人工干预的情况下学习到潜在的模式特征。如果数据缺损，缺损的内容就学不到了。

对抗人工智能

2017 年 2 月，OpenAI 指出人工智能安全领域的一大隐忧：对抗样本。对抗样本即为经过肉眼无法察觉的细微改动而使得计算机的判断出现严重错误的数据，在图像识别中，攻击者将对抗样本输入模型，从而让系统产生误判。如上图所示，一张熊猫图片被加入人为设计的微小噪声后，就导致其被系统识别为长臂猿。

小结

以深度学习为代表的人工智能技术在越来越多的领域发挥着重要的作用，而安全领域也不例外，将深度学习技术的引入与融合成为新的发展趋势。深度学习方法良好的特征提取能力与泛化能力给安全领域的研究带来了很大的便利，在未来，我们期待着其能够发挥越来越大的作用。

责任编辑：丁昶

中国保密协会科学技术分会