分享

吴瀚清:网站离线数据安全分析漫谈

 AnonymousV脸 2018-04-29
搜狐IT 07-05 11:59

【搜狐IT消息】 7月4日消息,2012年中国计算机网络安全年会在西安举行,阿里巴巴云计算有限公司资深安全专家吴瀚清发表了题为“关于网站离线数据安全分析漫谈”的演讲。

阿里巴巴云计算有限公司资深安全专家吴瀚清

以下为演讲实录:


我今天给大家做了一个演讲是关于网站离线数据安全分析漫谈,其实这个东西是我在阿里巴巴大概有三年了,一直想做的一件事情。这件事情3年下来经历了非常多的看客,中间也夭折了几次,但是我也坚持做下来。接下来我给大家讲一讲这件实是什么事,我是怎么做的。

首先介绍一下我自己,我叫吴瀚清,我在阿里七年了。写字了一本书叫《白帽子讲web安全》,在6月份,最大的网站,他的446万个的用户的密码泄露,被人公布在网上,至今他没有公布他被黑掉,他发现这一件事以后,第一个反映是他要去查漏洞,怎么查?同时还有一项研究表明,63%的人并不知他曾经被人黑过。我们如果帮过这过这些站厂,让他们知道如何被黑掉。所以我们如果从整个公司安全角度分析看,数据分析这一块是非常重要的,在发现问题这个环节,这个模型是一个比较经典的模型,怎么去解决安全问题,发现问题,然后去修复问题,解决办法解决。那么在数据分析这一块,在发现问题这个环节,有一些开源项目在这个事情,用的最多的是大家手动的分析grep,还有一些规则集。还有PHp-ids等等,这些问题都能给我们提供帮助,但是都有问题,因为他是给单个网站用的,网站的信息量不大。

我在做这件事情的时候,有时候问题,有扫描了还需要分析日志吗?我们应该把安全问题修复掉,那么分析日志干什么,当然这是理想状态下。当然需要,分析日志可以发现攻击,我们可以看一下扫描可以发现什么,时间、地方、起因,扫描只能提供三个,但是分析日志可以发现6个,时间、地方、人物、起因、经过、结果,可以发现谁干的,它的IP是什么,你光说漏洞还是没用,他要知道他进来之后干了什么。这些东西可能是需要分析日志。计算损失很重要的,现在在很多都被忽视了,所以说分析日志可以提供比扫描更多的漏洞,我们可以在上面查很多有价值的东西。为什么不适用IPS/IDS/WAF,这个也是很重要的,离线的分析数据很复杂,我们今天看到的,离线数据分析可以处理更多的数据量,因为它的时效性要求并不高,同时他是并联、异步的。这就使得这个产品可以成为IPS和WAF的一个重要补充。下来就是满足更复杂的需求,这是场景1,统计某XS蠕虫感染的参数,第二个场景是现在阿里巴巴已经用了很多年的,把网站的所有请求根据URL去重,提供给扫描器进行扫描。所以在阿里做了一件非常取巧的事情,就是把网站所有的请求提出来,然后去重,然后让扫描器直接去扫描,也可以。这里有两个场景,但是我们还可以想到更多的场景。我们在离线分析里面可以做到多次分析,比如说我可以根据频率去做请求,这个来源到底是什么样的,多数的来源是什么?少数的来源是什么?像这种多次请求有关系的,就需要通过离线系统来做分析,所以说分析以后就有更复杂的分析需求。

那么遇到的最大挑战什么?就是大数据,数据量大了以后原来看来不是很大的问题的时候都会成为很大的问题。所以在未来,可能会采用新的技术,比如说专门开发了一套传输日志的技术,这样的技术我们未来可能会用,因为今天已经进入到这个时代,大数据的存储是hds,大数据的计算是map-reduce,实时性的提高是hbase,在这样一个环境里面,性能并不是一个瓶颈。这点和以前的分析是有很大的区别。那么未来还要考虑到实时性的提高,现在其实已经可以做到,未来可以做到更快,如果要提高实时性的话,会考虑hbase,所以我们面对的最大问题是大数据。现有流程,这个架构符号,先是日志收集,然后经过ETL,进行规则分析,最后是结果输出,其实也可以看到这样的一个仓库,把日志收集,经过ETL,进行规则分析,然后进行结果的输出。前面讲了大数据以后,在阿里今天的数据请求是每天十多亿,基本上半个小时分析完,但是仍有有提高的空间。所以说他的处理的能力还是有非常大的提高空间的,我们可以申请更多的资源,让它变得更快,满足更多的需求。所以说处理也不是非常强的,仍然有提高的空间,因为阿里是做业务,会有很多网站,把这些网站集中起来,我们一起做这个业务,会有很多的数据价值,在未来数据是很重要的。我们到底要分析什么?分析什么呢?在一开始我想的非常理想,我提出了一个假设,就是互联网网站的请求,正常的请求都是有规律的,但是异常攻击的请求是有明显区别于正常请求的,如果我们把正常的区分出来,那么异常的就出来的。比如URL,可能大部分URL都是来自比较固定的来源,那么少数的就不是异常,结果这个结果就是产生了过多的噪音,你会看到每天会和这些噪音做战斗,结果产生了过高的人力成本,最后成果并不是特别大。到第二年,又做了一个,我们就检测一些供给类型,注册、文件包含这些,跨站,如果在请求里面,出现了Alibaba的需求vs小网站的需求,结果第二年还是失败的,这个时候检测出意义其实并不是特别大,也可以看到很多请求,但是发给安全主管,会发现他拿这个东西不知道干什么,后来这个结果就造到了置疑。在阿里的网站,像文件包括这种,所以说到第三,我想到阿里的需求和其他的网站不一样的。所以第二次尝试是失败的,到第三年,为中小网站提供服务,检测什么东西,每一个漏洞新出来,比如说我们新出现一个漏洞,这些信息涉及到一个漏洞库和知识库的一个过程。到今天我又开始检测具体的漏洞,每一个漏洞在网络里面的实际攻击情况到底是怎么样的,到今天也算是做出来一些眉目了。其实一块是做这个还是很好的,从实验室做到产品是有一定距离的。做到这里还没做完,漏洞,供给,供给成功,当我再次给老板看的时候,老板说没用,这个价值其实意义并不是特别大,好了,把它做死,我们能够检测到攻击,这些东西都是造成误报的主要来源,有用吗?用处不大。所以说这是一个非常关键的一个需求,所以在供给验证滞后,我们的流程加两步,就变化了规则分析再到供给验证,再到结果分析。阿里已经做了四五年,规则分析之后,把这些信息再进去确认一遍。这个是照的一张截图,可以看到中间的,这两分钟处理了很多的数据。所以说整个大数据,随着业务的增长这个数据量可能会更多的增长。在这个过程中,我们还做了web检测,这是一个月内的一个趋势图,在这个里面,每年都能发现,所以说今天的互联网安全形势是非常不乐观的,其实我一开始在公司来说,也是一个意外,因为也没想到会分析出来这么多,所以做安全的时候并不能仅仅凭想象。今天可以说能够检测到90%以上,甚至95%以上,有很多黑客写的有加密的,所以说今天我们检测这么多,实际上是非常了不起的成绩,很有意思是90%以上是为了DDOS,而且发现多数webshell是ddos、挂暗链,挂马。这集中行为都和地区无关,所以说现在的黑站,只需要把网站拿下来以后,他就可以完成他需要干的事情,左边的这个是一个服务商分析,主要是webshell的一个服务商,在webshll请求量的趋势,0.0026%为了webshell请求,因为ddos能够知道,就相当于一种加速网络,去下达指令的时候,不会产生一条新的请求,这其实也是一个问题。

此外对攻击检测,也这是日报的一部分,可以看到有漏洞编号、漏洞描述,还有提取攻击总数,被攻击网站总数,被成功攻击网站数,所以一定要把这一方面做透,否则也没有什么意义。每当有新漏洞公布时,DEDS CM5.7 SQLI(ssvid+60089),SHopex,当然我们做的这种离线分析,我们用于统计,因为我们案例一个安全数据仓库,这是我们做的一份主要是手机方面病毒的统计,其实这里面可以看到一些很有意思的,iphone和ipad请求是差不多的,安卓可能会与iphene差不多,但是加了ipad之后就不行了。这些统计实际上也可以做为很有意思的统计,比如说在未来可以公布一个表,可以统计出来有多少系统的网站用户被黑掉了,这些东西是非常重要的,可以直接看到这个网站到底安不安全。这个其实更多提供的是漏洞分析,这些漏洞其实有多少网站因为这个漏洞被黑掉,所以说这个漏洞是需要数据分析来找出来的。所以在未来这样的一套系统,可能会为占提供数据安全分析的服务,同时也希望称为互联网安全的风向标。这就是我今天大家分享的一个主题,关于网站离线数据安全分析,谢谢大家。

(根据专家现场演讲整理)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多