分享

Splunk

 Sophia_Study 2021-10-20

1,每家公司都有大量的实时数据

使用方面(制造业公司):例如像应用程序,设备,制造系统,实物库(库存)等等-->将这些信息都结合起来,大概就能实时的了解到你公司目前的运营情况。

网上商城(在线云业务,大家都需要访问这个在线的iwu系统):存放服务器的机房,搭载数据库的服务器,用户访问服务留下来的访问记录,以及业务使用形成的日志文件-->使用的传统关系型数据库,很难去维护和管理。

访问日志-->可以甄别出当前访问系统的用户有哪些是黑客用户。比如有个用户在一分钟内发起了一百次的login尝试等等

服务器日志-->可以监控服务器的负载,通过服务器的负载可以知道当前它宕机的概率是多少。

业务系统的日志-->直接影响到你在线商城的服务状态和运营利润。

2,将实时数据化为行动并不容易

1>数据量级的瓶颈。

3,Data-to-Everything平台:消除数据和行动之间的障碍,简而言之,将数据连接到一切问题的解决方案之中。

能解决的业务领域,粗略的划分的话,比如IT,安全(这两个领域是splunk首先开始做的,也是领先的),物联网,业务分析

任何结构(对数据格式没有要求,可扩展)

任何来源(splunk擅长不同地方的数据和整合到一起做一个关联的分析)

任何时段

数据的收集和分析完全分隔开来,而且不同的数据之间都有关联性。

4,SPLUNK的调查方法

怎么对数据进行分析的过程-->调查方法

传统数据库:有固定的维度,在导入之前就定死了。而splunk不同。

splunk:先收集非结构化数据,收集完以后先不进行处理,然后通过快速提问的方式(互动),来决定这个数据我感兴趣的部分,然后进行动态的结构化。层层递进,在每一层的基础之上,再继续做处理,直到达到最终目的。

5,性能

如Splunk forwarders:主要的作用就是收集数据,收集好以后通过自动的那个负载均衡的方法,将他发送到索引器中。

Splunk 索引器:主要用来存储数据(集群的架构,水平扩展),最大的数据量就是存储在索引器中,他能达到的容量的上线就取决于你的索引器的集群规模有多大。

Splunk搜索头:主要用来发起搜索。在我们已经有了大量数据以后,搜索头将会发起全量数据的搜索。然后将搜索操作分散到每个索引器上面,每个索引器上面完成自己的计算,通过reduce的方法,把结果再汇总到搜索头上面去,然后搜索头会汇总这些结果,最终产生那些数据的答案。

6,通用转发器

定义:刚刚谈到forwarders的数据的搜索,那么主要用来搜索数据的角色就是通用转发器(部署的app),是一个小巧,灵活,低资源消耗的转发器,不会对服务器产生压力。(只是转发数据,不会事先解析)

原始数据(例如,日志文件,windows事件,指标,网络数据包和端口,运行脚本,配置文件,API等等)

好处:通过在数据产生的地方,能够做到直接把数据收上来,然后在收集数据的地方,再把数据发送到我们前面说过的存放数据的index地方去。如果你本地就是数据产生的地方,那么这个过程就会相对稳定,非常可靠。

这里还会有各式各样的缓存机制,在数据收集的过程中,如果数据断了,或者如果转发到索引器的时候,索引器连接不上了,我们的各种各样的缓存机制和一些负载均衡的方式,然后再确保你收集到的数据不会丢失,并且可以对数据做一些压缩和加密的工作。

相对于这个通用转发器,还有个叫heriford????(这个名字不确定,没听清),它可以安装一些app和一些重量级的应用,让你实现一些更复杂的数据收集,特别是你在和一些第三方的产品进行数据的集成的时候,比如和数据库进行集成,或者一些软件的接口,开发软件等等集成的时候。

7,机器数据是复杂的

日治文件

比如市场营销领域:显示按语言查看的首要产品。(对于这个,我们关心的是产品卖的怎么样?)

按着示例中的日志文件,显示有客户端IP(哪里的人用的什么电脑,具体的地理位置),产品的ID,还有浏览器语言的设置(通过这个可以知道是来自那个国家的人) --通过简单的这三个信息,就可以得知一般哪个产品,是通过哪个语言的人访问的比较多,还有,哪个地区的客户对那种类型的产品更有兴趣。

DepOps用例:在发布我的新应用程序之前,我最应该测试哪些手机?

Log中显示有平台(iphone或者android等等),手机型号等等

IT运维的案例:网页出错

Log中的信息,网络服务器IP地址,客户端IP地址,请求的网页,网络的会话IDsession,浏览器,状态代码(反用了response,是否成功的访问了这个网站),返回客户端的对象大小

我们关心的是:当前服务器的使用情况,user的访问压力,应用的性能

Session ID很重要,很重要的值,通过统计在一定的时间段内,同样一个session ID的所有的日志的记录的行为,我们就可以很精确的描绘出来一个user从登录到我们的网站系统上,然后他做了什么样的事情,到它登出到这个网站系统,他的这个行为路径我们都可以通过session ID这样的值,然后串联起来。

-->服务器资源的消耗,响应率,行为模式,可以甄别出来一些黑客。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多